Российские ученые из компании Smart Engines создали искусственный интеллект (ИИ), который может распознавать рукописные слова без опоры на языковой контекст. Это значительно снижает вероятность ошибок при обработке редких слов и улучшает работу систем распознавания документов.
Одним из главных испытаний для новой нейросети стало слово «шиншилла». В рукописном тексте буквы «ш», «и» и «л» могут сливаться, создавая сложности для машинного анализа. Однако нейросеть Smart Engines справилась с задачей, анализируя только форму и взаимное расположение букв, а не угадывая слово по смыслу.
В отличие от традиционных систем, новый алгоритм не использует словарный запас русского языка. Это особенно важно при обработке паспортов, регистрационных штампов и других официальных документов, где ошибки недопустимы.
Для обучения ИИ разработчики использовали 1,2 миллиона строк рукописного текста, сгенерированного с равномерным распределением буквосочетаний. Такой метод минимизирует так называемые «галлюцинации» ИИ — ситуации, когда нейросеть ошибочно «додумывает» слова, которых нет в тексте.