Қазақ тіліндегі мәтіндерді автоматты түрде өңдеуге арналған, еркін үлестірілетін, түпнұсқасы ашық бағдарламалау құралдарын құрастыру
Full Name of the work head: Есенбаев Жандос Аманбаевич
Исполнители проекта:
: National Laboratory Astana
Inventory number: 0218РК00199
Registration number: 0118РК01262
Keywords:
"Объектами исследования данного проекта являются текстовые документы на казахском языке, а также современные методы и алгоритмы их обработки и анализа.
Целью проекта является создание свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке.
В данной работе используются методы машинного обучения, искусственных нейронных сетей и статистической обработки текстовых данных. Методология обработки и анализа данных соответствует общепринятой практике проведения исследований, использующих подходы машинного обучения.
Результаты исследования:
- Были разработаны методы и алгоритмы первичной нормализации текстов, включая этапы восстановления гомоглифов, транслитерации и стандартной нормализации. Было показано, что начальная нормализация сокращает размер словаря на 27% и уровень OOV - на 4.9%.
- Были разработаны три модели, основанные на искусственных нейронных сетях, для решения задачи графематического анализа текстов. Так, в задаче токенизации была достигнута точность на уровне 99.61% с помощью двунаправленной LSTM сети, а в задаче сегментации предложений - 95.95% с помощью поступательной сети. Также, была предложена и разработана новая модель токенизации слов в предложении на основе глубокого усиленного обучения без учителя (reinforcement learning).
- Были разработаны Байесовские классификаторы для задачи определения языка по документам и словам. Точность определения языка по документам для русского языка составила 98.6%, а для казахского - 99.97%. Точность пословного классификатора для казахского языка составила 96.70%, а для русского - 94.08%. Для определения языка по предложениям, была разработана модель на основе LSTM сети, точность которой - 99,73%.
- Была разработана собственная версия морфологического анализатора на основе Apertium HFST, в котором были оптимизированы морфотактические и лексические компоненты последнего. Кроме того, система разметки Apertium была конвертирована в международную систему обозначений, основанную на Лейпцигских правилах, которые учитывают специфику казахского языка.
- Был разработан морфологический таггер на основе скрытых марковских моделей, точность которого составила 91,9%, что на 1% выше, чем лучшие результаты, описанные в литературе и достигнутые для казахского язык.
- Был создан веб-сайт проекта, в котором публикуется информация по проекту. Веб-сайт также содержит демонстрационные страницы разработанных модулей и расположен по ссылке http://opendev.kz/kaznlp/.
Результаты были апробированы и опубликованы в международных рецензируемых конференциях.
Все разработанные в рамках данного проекта программные модули развернуты в интернет и предостоставляются в виде демонстрационных веб-сервисов.
Разработанные модули могут быть применены в любой области, где стоят вопросы автоматической обработки текстов на казахском языке, например, для обработки документов и неструктурированных веб-данных. "