Исследователи КазНУ им. аль-Фараби разрабатывают современные эффективные технологии машинного перевода казахского языка
В настоящее время применяются различные технологии машинного перевода, такие как статистический машинный перевод, машинный перевод, основанный на грамматических правилах. Однако, это методы не обеспечивают достаточного качества машинного перевода для естественных языков.
(Есте́ственные языки́, человеческие языки, которые, в отличие от искусственных языков, не созданы целенаправленно, искусственно, а исторически сложились в процессе развития человеческого общества. Насчитывается до 7 тыс. естественных языков.)
Одним из наиболее перспективных направлений в улучшении качества машинного перевода признается постредактирование машинного перевода на основе машинного обучения и рекуррентных нейронных сетей, которое активно применяется для известных мировых языков.
Практическое использование машинного перевода, в частности, в Google Translate, показывает впечатляющие результаты. Вместе с тем совершенно отсутствуют исследования постредактирования машинного перевода для казахского языка.
Целью исследования казахстанских учёных является разработка эффективных алгоритмов и моделей системы постредактирования с высоким качеством машинного перевода, адаптированной под особенности казахского языка.
Разработка качественных технологий машинного перевода позволит не только устранить языковые барьеры, но и сделать еще один шаг к решению проблемы языкового барьера, который препятствует взаимодействию и развитию в разных сферах деятельности. Пользователем машинного перевода может быть любой сотрудник компании, инженер, юрист, врач, преподаватель, менеджер и т. д., поскольку он может получить качественный перевод многостраничных документов в короткие сроки.
В связи с тем, что машинный перевод не всегда может дать нужный результат, возникает необходимость редактирования перевода.
При организации взаимодействия человека и электронно-вычислительной машиной в машинном переводе можно определить четыре формы: первая с постредактированием, где исходный текст перерабатывается машиной, а человек-редактор исправляет результат; вторая с предредактированием, когда человек приспосабливает текст к обработке машиной, после чего начинается программная обработка; третья - с интерредактированием, в этом случае человек вмешивается в работу системы перевода, разрешая трудные случаи; смешанные системы, когда одновременно используется несколько форм редактирования.
В ходе реализации проекта исследованы различные модели и подходы для разработки системы с учетом обработки больших данных.
Для создания прототипа системы постредактирования использовались модели нейронных сетей: BRNN и Transformer. Данные модели были сконфигурированы на базе удобного приложения OpenNMT, использующего фреймворк машинного обучения PyTorch. Эксперименты проводились на тестовом корпусе с объемом 380 тыс. предложений. На первом этапе выполняется англо-казахский или русско-казахский нейронный машинный перевод с помощью модели BRNN. Затем используется модель Transformer для постредактирования текста. После этого выполняется обработка сложных по структуре и грамматике форм и замена аббревиатур.
Переведенные тексты с помощью моделей BRNN были улучшены моделью постредактирования Transformer, что показывает ее эффективность в рассматриваемой задаче автоматического постредактирования. Тем не менее, базовые значения метрик машинного перевода могут быть улучшены увеличением объема корпуса и охватываемых им тематик, что является важной задачей мало ресурсных языков.
Реализация проекта позволила провести обзор и сравнительный анализ работы современных онлайн систем машинного перевода для казахского языка. Разработана классификация ошибок, выявленных при работе в системах машинного перевода с русского и с английского на казахский язык. Разработана модель по определению неизвестных слов при постредактировании машинного перевода на основе морфологического анализа казахского языка.
Исследователями разработана информационная система. Представлены практические результаты по разработке архитектуры и прототипа системы пост редактирования казахского языка. Представлены описание программных модулей и ресурсов. Исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками BLEU, TER и WER.
Результаты научно-исследовательской работы, выполненные в рамках данного проекта, были апробированы и внедрены в учебный процесс дисциплин образовательной магистерской программы 7М06101-«Вычислительная лингвистика» КазНУ им. Аль Фараби.
Проект АР08052421 Исследование и разработка системы постредактирования казахского языка в машинном переводе
Руководитель проекта Д.Рахимова, доктор PhD, старший преподаватель