nlp
Найдено: 1 запись
Ни о чём →
Использование статистических методов для генерации парадигмы по каноническим формам новых слов
Вот и настал момент, когда можно будет поговорить об интересном методе заполнения базы/словаря модуля морфологии с использованием данных уже имеющихся в нём и статистических методов.
Имеем:
Имеем:
- Базу Зализняка из 94 тысячcлемми почти 3 миллионових словоформ
- Базу из 52 тысячи новых слов с информацией об их грамматической принадлежности (род, число, одушевлённость и прочее…)
- Интерпретатор Ruby
- Некоторое кол-во свободного времени после работы
- Необходимость дополнить базу модуля парадигмами новых слов (имеются лишь их канонические формы)
28.10.2010 19:21+0400