17 ноября 2014 г.

Как найти общий язык с машиной: российские разработки

Дмитрий Козин рассказал «РБК Инновациям» о системе «Лингурус».

Мы бы хотели не стучать по клавишам, а говорить и видеть, как слова превращаются в печатный текст. Врач, наверняка, захочет освободиться от писанины, которой он вынужден заниматься во время приема пациента, и просто диктовать машине результаты обследования и диагноз. Мы бы, конечно, хотели поговорить с человеком, который не владеет ни одним из языков, которыми владеем сами, и при этом компьютер – прямо как в Star Trek – понимал нашу речь, переводил ее на язык нашего собеседника и произносил. Есть много ситуаций, когда у нас заняты руки, и мы бы хотели использовать свободный в этот момент канал связи – речевой.

«Иногда эта функция промышленных и бытовых устройств становится особенно актуальной: она нужна тем, кто находится за рулем автомобиля; выполняет работы на высоте или при низких температурах; больным и инвалидам. Также голосовое управление поможет при необходимости экстренной остановки устройств и механизмов», – говорит Дмитрий Козин, руководитель отдела перспективных разработок компании «ИнтэлЛекс» и проекта «Лингурус».

«Главная трудность подобных разработок… заключается в значительной мере в синтетическом характере языка. В русском языке употребляется огромное число словоформ. Как следствие, возникает необходимость работы с большим словарем в миллионы словоформ», — уточняет Дмитрий Козин.

Распознавание речи – это задача искусственного интеллекта. Человек умеет ее решать, но и человек распознает речь только с некоторой точностью, в зависимости от внешних условий.

В проекте «Лингурус» реализована собственная система автоматической транскрипции в акустическую модель. «Наша система базируется на собственном фонетическом "алфавите", в котором все звуки речи (псевдофонемы) могут быть охарактеризованы по суперпозиции некоторого множества численных признаков. На основе этих признаков мы можем дать вероятностный ответ – какая из псевдофонем звучит на данном конкретном участке речевого сигнала. Таким образом, имея словарь с транскрипциями, мы можем вычислить вероятность звучания каждого слова целиком… Отличительной чертой транскрипций, которые используются в "Лингурусе", является учет возможной редукции и подмены безударных гласных звуков, ассимиляции звуков по мягкости и звонкости, а также многих других особенностей произношения, характерных для беглой речи», – описывает ее работу Дмитрий Козин.

Качество распознавания речи при фиксированной тематике и минимальном шуме сегодня очень высокое. У ведущих компаний точность превышает 95–97% (примерно такая же, как и у человека). При распознавании слитной речи произвольного диктора (то есть такого, чей голос программа не знает заранее) и наличии шумов точность распознавания резко падает. Человек справляется с такого рода задачей лучше, чем компьютер. Но и в этом направлении ведущие компании предлагают решения, которые в среднесрочной перспективе (5–10 лет) вполне могут приблизиться по качеству распознавания слитной речи компьютером к возможностям человека.

Источник:  
Система:  
INTELLEX Москва, ул. Верхняя Красносельская, д. 3, стр.5 +7 (499) 929-83-71