Full Name of the work head: Рахимова Диана Рамазановна
Исполнители проекта:
: РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Inventory number: 0322РК00833
Registration number: 0121РК00594
Keywords: компьютерная лингвистика,лингвистический корпус,машинное обучение,машинный перевод,речевые технологий
Согласно календарного плана договора были получены следующие результаты:
-Произведен сбор новых параллельных текстов с помощью алгоритма выравнивания. Общая база состоит из 6 млн пары предложении. Разработан алгоритма выравнивания (Alignment) для параллельных текстов. По практическим результатам точность выравнивания разработанного алгоритма составило не менее 76 процентов.
-Разработан морфологический анализатор государственного языка. Алгоритм работы морфологического анализатора казахского языка состоит в последовательном применении всех описанных и других правил вывода с накоплением полученных результатов морфологического разбора в результирующей структуре. Всего описываемая база данных содержит около 80 000 начальных словоформ казахского языка.
-Разработана система машинного перевода для государственного языка на основе архитектур BRNN и Transformer. Произведена программная реализация системы и обучение моделей проводилось на платформе- OpenNMT. Качество обученных моделей оценивали с помощью показателей BLEU, WER и TER.
-Разработка модуля распознавания речи государственного языка, которая направлена на решение задачи с ограниченным речевым ресурсом в рамках интегральной архитектуры. Произведены обработка и сбор датасета речи казахского языка. Были выполнены обратка речевых сигналов, выделение речевых признаков, построение акустических и языковых моделей. Обработка данных для корпуса были проведены с использованием технологии Python 3.8.