Full Name of the work head: Кожирбаев Жанибек Мамбеткаримович
Исполнители проекта:
: Частное учреждение "National Laboratory Astana"
Inventory number: 0322РК00062
Registration number: 0122РК00023
Keywords: каскадный перевод речи,машинный перевод,обработка речи,перевод речи,сквозной перевод речи
За отчетный период были собраны акустические и текстовые данные. Были собраны аудиоданные без метки продолжительностью 1020 часов для казахского языка. Нами были проведена генерация коротких аудио-текстовых пар из оригинальных длинных аудиофайлов и соответствующих текстов. А объем текстовых данных составил более 1 миллиарда словоформ для казахского и татарского языков. Далее, мы разработали модели распознавания казахской речи на основе многослойных нейронных сетей на двух доступных наборах речевых данных: KazBNT и ISSAI KSC. Также мы разработали программный модуль системы каскадного перевода речи.