Яндекс.Метрика
    Поиск по тегу

    nlp


    Найдено: 1 запись

    Ни о чём

    Использование статистических методов для генерации парадигмы по каноническим формам новых слов

    Вот и настал момент, когда можно будет поговорить об интересном методе заполнения базы/словаря модуля морфологии с использованием данных уже имеющихся в нём и статистических методов.

    Имеем:
    1. Базу Зализняка из 94 тысячcлемми почти 3 миллионових словоформ
    2. Базу из 52 тысячи новых слов с информацией об их грамматической принадлежности (род, число, одушевлённость и прочее…)
    3. Интерпретатор Ruby
    4. Некоторое кол-во свободного времени после работы
    5. Необходимость дополнить базу модуля парадигмами новых слов (имеются лишь их канонические формы)