Разработка информационно-поискового тезауруса (с учетом морфологии казахского языка) в полнотекстовых базах данных по ИТ-технологиям
Руководитель проекта: Сыдыков Е.Б.
Исполнители проекта: Тусупов Д.А., Сагнаева С.К., Федотов А.М., Мурзин Ф.А., Батура Т.В., Самбетбаева М.А., Еримбетова А.С., Ахметова А.Ж., Бапанов А.А., Бакиева А.М.
Организация: Евразийский национальный университет им. Л.Н.Гумилева
Инвентарный номер: 0217РК01565
Регистрационный номер: 0115РК01422
Ключевые слова: тезаурус
Разработан трехъязычный тезаурус предметной области \"Информационные технологии\", содержащий термины на русском, английском и казахском языках. Предложены алгоритм координатного индексирования текстов, который может быть применен для решения задач кластеризации и тематической классификации документов, алгоритм тематической классификации документов, методы определения степени близости предложений на естественном языке. Исследованы модели определения тем текстов на естественном языке. Реализован программный инструментарий для анализа текстов на естественном языке, включающий различные алгоритмы: определения степени близости предложений, построения графов по предложениям, вычисления весов слов, центральностей и других характеристик.