Разработка информационно-поискового тезауруса (с учетом морфологии казахского языка) в полнотекстовых базах данных по ИТ-технологиям
Full Name of the work head: Сыдыков Е.Б.
Исполнители проекта: Тусупов Д.А., Сагнаева С.К., Федотов А.М. и др.
: Евразийский национальный университет им. Л.Н.Гумилева
Inventory number: 0216РК01049
Registration number: 0115РК01422
Keywords: Многоязычный тезаурус*Информационный ресурс*Алгоритмы поиска
Разработан трехъязычный тезаурус предметной области \"информационные технологии\", содержащий 21672 термина на русском, английском и казахском языках. Предложен алгоритм координатного индексирования текстов, который может быть применен для кластеризации и тематической классификации документов. Созданы модели определения тем текстов на естественном языке. Реализован программный инструментарий для анализа текстов на естественном языке, включающий алгоритмы определения степени близости предложений, построения графов по предложениям, вычисления весов слов.