Проектирование комплекса сбора и обработки Интернет данных
Full Name of the work head: Турсумуратов Д.Т.
Исполнители проекта: Махамбетов О.Е.*
: Nazarbayev University Research and Innovation System
Inventory number: 0213РК02738
Registration number: 0111РК00361
Keywords: интернет данные*краулер*анализатор*обработка естественного языка*корпус казахского языка*
Разработаны методы и алгоритмы в области анализа и обработки "больших данных", с последовательным накоплением экспертизы в данной области. Осуществлен сбор и обработка текстовых данных на казахском языке. Собран корпус казахского языка, содержащий 135 миллионов различных словоформ, состоящий из более 445 тысяч документов, сгруппированных по пяти стилистическим жанрам: художественный, публицистический, официально-деловой, научный и разговорный. Построен прототип многопотолочного краулера под названием Ormekshi, создан анализатор казахского языка на основе программы с открытым исходным кодом Lucene и метод интеграции с поисковым сервером Solr. Предложены методы шумоподавления, обучения с частичным привлечением учителя для кластеризации и квалификации данных.*