Исследование и разработка системы постредактирования казахского языка в машинном переводе
Руководитель проекта: Рахимова Диана Рамазановна
Исполнители проекта:
Организация: Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Инвентарный номер: 0222РК00310
Регистрационный номер: 0120РК00083
Ключевые слова: казахский,машинный перевод,Постредактирование,технология,язык
По задачам ресурсов и обработки данных были выполнены следующие работы и получены результаты:
- разработан метода выравнивания параллельного корпуса с использованием словаря синонимов;
- разработаны специализированные словари для казахского языка.
Для инструментов автоматизированного постредактирования казахского языка были разработаны модули на основе подхода машинного обучения и реализованы следующие работы:
- разработаны модули Full post-editing для англо-казахского и русско-казахского перевода на основе модели Seq2Seq (RNN, BRNN) и Transformer.
- разработан алгоритм определения типа сложных предложений для постредактирования англо-казахского и русско-казахского машинного перевода;
- разработан подход постредактирования сложных предложений англо-казахского и русско-казахского машинного перевода на основе формальных правил структур языка.
Представлены практические результаты по разработке архитектуры и прототипа системы пост редактирования казахского языка. Проведенные за отчетный период исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками BLEU, TER и WER.