Разработка информационно-поискового тезауруса (с учетом морфологии казахского языка) в полнотекстовых базах данных по ИТ-технологиям
Руководитель проекта: Сыдыков Е.Б.
Исполнители проекта: Тусупов Д.А., Сагнаева С.К., Федотов А.М. и др.
Организация: Евразийский национальный университет им. Л.Н.Гумилева
Инвентарный номер: 0216РК01049
Регистрационный номер: 0115РК01422
Ключевые слова: Многоязычный тезаурус*Информационный ресурс*Алгоритмы поиска
Разработан трехъязычный тезаурус предметной области \"информационные технологии\", содержащий 21672 термина на русском, английском и казахском языках. Предложен алгоритм координатного индексирования текстов, который может быть применен для кластеризации и тематической классификации документов. Созданы модели определения тем текстов на естественном языке. Реализован программный инструментарий для анализа текстов на естественном языке, включающий алгоритмы определения степени близости предложений, построения графов по предложениям, вычисления весов слов.