Форум программистов «Весельчак У»
  *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

  • Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
  • У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
   Начало  
Наши сайты
Помощь Поиск Календарь Почта Войти Регистрация  
 
Страниц: [1]   Вниз
  Печать  
Автор Тема: Проверка орфографии  (Прочитано 11352 раз)
0 Пользователей и 1 Гость смотрят эту тему.
OxCom
Интересующийся

ua
Offline Offline
Пол: Мужской
Неуч


« : 25-11-2010 18:58 » 

Всем доброго времени суток.
Все началось с гугла. С его функции исправления ошибок и опечаток в поисковых запросах. Мне стало очень интересно, как современные системы проверяют орфографию. Интересует конкретно алгоритм: по пунктам как и что делается. Плевать на реализацию. Хочу знать как оно работает.
Все что смог найти интересного, но пока не могу понять как оно может мне помочь, так это алгоритм Стемминга для русского языка (Russian stemming algorithm). После я зарылся глубже в поисковики, но без результатов.

По моим размышлениям необходимо посчитать расстояние между словами. Как это можно сделать - должны быть методы, но ничего пока хорошего не нашел. Подскажите куда копать?
« Последнее редактирование: 25-11-2010 19:32 от OxCom » Записан
RXL
Технический
Администратор

Offline Offline
Пол: Мужской

WWW
« Ответ #1 : 25-11-2010 19:39 » 

Гугль это может делать чисто статистически: во введенном запросе он обнаруживает слово, которое редко встречается в его базе или вообще не встречается и подыскивает ему возможную замену. Поводом для перестройки запроса может быть и малое число ссылок в выдаче, плохая их релевантность или или их протухлость. При их масштабах статистика — вполне годный инструмент. Т.е. пользователи сами обучают систему.

Для более приземленных вариантов: посмотри готовые спелчекеры.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Вад
Модератор

ru
Offline Offline
Пол: Мужской

« Ответ #2 : 26-11-2010 06:49 » 

Питер Норвиг (ныне, кстати, работающий в Гугле) какое-то время назад написал статью на сабж: http://norvig.com/spell-correct.html
Разумеется, здесь он изложил наивный подход, но даже этот наивный подход, в общем-то, работает. В конце он приводит ссылки для дальнейшего ознакомления Улыбаюсь Как отправная точка - думаю, пойдёт.
« Последнее редактирование: 26-11-2010 06:51 от Вад » Записан
Falsehood
Молодой специалист

ru
Offline Offline
Пол: Женский
не может быть


« Ответ #3 : 08-12-2010 15:13 » 

http://habrahabr.ru/blogs/algorithm/105450/ - интересная статья про проверку орфографии
Записан

Славная трава...
Sla
Команда клуба

ua
Offline Offline
Пол: Мужской

WWW
« Ответ #4 : 08-12-2010 15:16 » new

на хабре еще есть цикл статей в блоге finereader'а
Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.
Страниц: [1]   Вверх
  Печать  
 

Powered by SMF 1.1.21 | SMF © 2015, Simple Machines