Мировая наука

Искусственный интеллект обучают распознавать тюркскую речь

25.04.2023

1361


Исследовательский коллектив Института информационных и вычислительных технологий разрабатывает систему Автоматического распознавания речи (ASR) для малоресурсных языков, таких как казахский, киргизский, азербайджанский, и т.д. Эти языки входят в группу агглютинативных языков.

Автоматическое распознавание речи (ASR) – это междисциплинарная область вычислительной лингвистики, которая объединяет знания и исследования в области лингвистики, информатики и электротехники для разработки методологий и технологий, позволяющих распознавать и переводить устную речь в текст с помощью компьютеров и компьютеризированных устройств, такими как интеллектуальные технологии и робототехника.

Накопленные за десятилетия вручную знания предметной области были использованы в современных конвейерах ASR. Простое, но мощное альтернативное решение – интегральное обучение таких моделей ASR с использованием глубокого обучения для замены большинства компонентов одной моделью. Эти воплощения представляют собой значительный шаг к единой системе ASR, которая обращается ко всему диапазону контекстов распознавания речи, обрабатываемых людьми.

Цель проекта казахстанских учёных заключается в  разработке методов, моделей и программных средств для интегральной системы автоматического распознавания речи для агглютинативных (тюркских) языков.   

Практическая значимость проекта в национальном и международном масштабе состоит в реализации интегральной (end-to-end) системы автоматического распознавания речи с использованием методов машинного обучения, а также в разработке новых математических моделей и алгоритмов для решения задачи по разработке новой технологии автоматического распознавания речи для агглютинативных языков на примере казахского и азербайджанского языков. Данная система распознавания речи может быть использована для голосового машинного казахского-азербайджанского перевода. 

Значительный социальный спрос на технологию высококачественного распознавания речи по голосу наблюдается среди слабовидящих и незрячих людей и часто встречается в мобильных и бытовых приложениях голосового управления.

Конечной целью исследования является создание эффективного алгоритма, метода и программных средств для интегрального распознавания агглютинативных языков на примере казахского и азербайджанского языков. 

Полученные результаты могут быть использованы в интегральной системе автоматического распознавания речи для казахского и азербайджанского языков, для голосового машинного казахско-азербайджанского перевода, для компьютерного стенографирования, для голосового управления компьютером, робототехническими и автоматизированными системами, что позволит людям с ограниченными возможностями одновременно осуществлять несколько функций, не связанных с устройствами ввода в машину.

Научным коллективом получено 2 авторских свидетельства на программные обеспечения, патент на изобретение и акт о внедрения разработанной системы в продукцую компании  «Philips».

Научный проект АР 08855743 «Разработка интегральной  (end-to-end)  системы автоматического распознавания речи для агглютинативных языков»

Научный руководитель - Қ. Әлімхан, доктор наук, профессор


«« | »»
Последние новости