Разработка интерактивного портала по оптическому распознаванию текста на государственном языке с использованием высокопроизводительных вычислений
Full Name of the work head: Турсунов И.Э.
Исполнители проекта:
: Казахский национальный технический университет им. К.И.Сатпаева
Inventory number: 0212РК02097
Registration number: 0112РК02007
Keywords: Портал, оптическое распознавание символов, OCR, казахский язык, именная парадигма, ХFST, веб-сервис,
Разработан и протестирован алгоритм оптического распознавания казахского текста в среде Tesseract, продемонстрировавший точность распознавания выше 70%. Формализована и разработана именная парадигма казахского языка. Разработан обратный пробный словарь основ казахского языка. Разработан и протестирован алгоритм морфосемантического анализа и генерации словоформ казахского языка. Разработан проект Web-сервиса интерактивного портала распознавания текста на государственном языке в соответствии с международными стандартами, который включает в себя функционал обеих библиотек - по оптическому распознаванию и морфосемантическому анализу текста.