Проектирование комплекса сбора и обработки интернет данных
Руководитель проекта: А.К. Байгарин
Исполнители проекта: О. Махамбетов
Организация: Центр энергетических исследований
Инвентарный номер: 0212РК00251
Регистрационный номер: 0111РК00361
Ключевые слова: Поисковая система, Поисковый сервер, Информационный поиск,
Определена стратегия развития направления "Информационный поиск и интеллектуальный анализ данных" и вычислительных наук в Центре Энергетических Исследований в целом. Проведен анализ существующих систем, новых технологий и алгоритмов для проектирования систем сборщиков и обработки данных. Построен собственный прототип краулера. Разработана архитектура полноценной системы сбора и обработки данных (поисковой системы), новые алгоритмы и рассмотрены возможности их применения для социальных и рекомендательных систем. Исследованы методы выявления шумовых слов в казахском языке, которые влияют на производительность и результативность поисковой системы.