Full Name of the work head: Мамырбаев Оркен Жумажанович
Исполнители проекта:
: РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Inventory number: 0322РК00037
Registration number: 0121РК00404
Keywords: информационный поиск,компьютерная лингвистика,лингвистический корпус,машинное обучение,онтологический подход
Полученные результаты: 1) Завершена работа по расширению и дополнению созданных корпусов криминально значащих текстов Computer-Mediated Communication казахского, русского и английского языков. Осуществлена семантическая разметка корпусов; 2) Разработан метод, на базе которого осуществлена автоматическая генерация онтологии «Противоправный интернет- контент» для казахского, русского и английского языков; 3) Разработан метод автоматической семантической разметки динамически наполняемых корпусов казахского, русского и английского языков, акцентированный на выделении лингвистических и лексических маркеров специализированного противоправного контента. Осуществлена автоматическая семантическая разметка корпусов; 4) Разработана интегрированая технология поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, включающей методы машинного обучения и онтологический подход.
Новизна: 1) новый интегрированный подход смыслового анализа текстового контента Интернета, базирующийся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области; 2) метод автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения событий, их типов, триггеров, аргументов и ролей аргументов из неструктурированных документов.