Разработка систем сбора, обработки и анализа больших данных (Big Data) с использованием облачных технологий для повышения эффективности труда и принятия решений
Руководитель проекта: Жумадилов Ж.Ш.
Исполнители проекта: Бекетаев К.Б., Есенбаев Ж.А., Махамбетов О.Е., Макажанов А.О., Айтпаев К.А., Сабыргалиев И.М.
Организация: Автономная организация образования "Назарбаев Университет"
Инвентарный номер: 0215РК02969
Регистрационный номер: 0115РК02473
Ключевые слова: корпус параллельных текстов*корпус казахского языка*распознавание деятельности*распознавание речи*мыслительный процесс*обработка языка*искусственные нейронные сети*машинное обучение*облачные технологии
Рассмотрена разработка систем сбора, обработки и анализа больших данных (Big Data) с использованием облачных технологий для повышения эффективности труда и принятия решений. Создан акустический корпус, содержащий спонтанную казахскую речь не менее 40 часов, корпус параллельных (казахского и русского) текстов в размере не менее 100 тыс. слов (в совокупности для обоих языков). Сделан литературный обзор существующих методов создания банка древ зависимостей, существующих методов и технологий разметки деятельности человека на видео данных и изображениях, методов сбора и разметка тональности данных по многозначной шкале, а также разработка программы для разметки тональности текстов. Создана акустическая модель казахского языка на базе нейронных сетей. Сделаны литературный обзор методов и алгоритмов машинного перевода на базе статистического подхода и изучение методов оценки качества машинного перевода, типов мыслительных процессов человека, и применимых к ним методов семантического анализа.