Исследование и разработка системы постредактирования казахского языка в машинном переводе
Full Name of the work head: Рахимова Диана Рамазановна
Исполнители проекта:
: Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Inventory number: 0222РК00310
Registration number: 0120РК00083
Keywords: казахский,машинный перевод,Постредактирование,технология,язык
По задачам ресурсов и обработки данных были выполнены следующие работы и получены результаты:
- разработан метода выравнивания параллельного корпуса с использованием словаря синонимов;
- разработаны специализированные словари для казахского языка.
Для инструментов автоматизированного постредактирования казахского языка были разработаны модули на основе подхода машинного обучения и реализованы следующие работы:
- разработаны модули Full post-editing для англо-казахского и русско-казахского перевода на основе модели Seq2Seq (RNN, BRNN) и Transformer.
- разработан алгоритм определения типа сложных предложений для постредактирования англо-казахского и русско-казахского машинного перевода;
- разработан подход постредактирования сложных предложений англо-казахского и русско-казахского машинного перевода на основе формальных правил структур языка.
Представлены практические результаты по разработке архитектуры и прототипа системы пост редактирования казахского языка. Проведенные за отчетный период исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками BLEU, TER и WER.