Разделы

ПО Бизнес Интернет Цифровизация Внедрения

Создан первый аудиопоисковик

«Центр речевых технологий» объявил о завершении работ над технологией Voice Digger — поиском «ключевых» слов в фонограммах русской речи. Это первая в России коммерческая разработка в области audio data mining — одного из самых перспективных направлений цифрового компьютерного рынка в мире.
Разработанный «Центром речевых технологий» Voice Digger — первый отечественный поиск по ключевым словам в звукозаписях русской речи. Voice Digger позволяет автоматически выделять ключевые слова и  словосочетания в потоке слитной речи без предварительного прослушивания. Разработка основана на непрерывном распознавании речи, реализуемом с  использованием теории скрытых марковских процессов (НММ). Ключевые слова задаются в виде обычного текста, по которому система строит НММ-модель каждого слова. На выходе VoiceDigger предоставляет ссылку на звуковой документ и местоположение искомого слова или словосочетания.

Специалист по компьютерной лингвистике Виктор Бочаров рассказал, что качество системы поиска ключевых слов определяется двумя показателями: вероятностью обнаружения ключевого слова и вероятностью ложного срабатывания при заданной длине искомого слова. Обычно пользователь может регулировать чувствительность системы в зависимости от того, что для него хуже: пропустить произнесение слова или получить много ложных срабатываний. В «Центре речевых технологий» сообщили, что уровень ошибки системы составляет порядка 8%.

Участники рынка сулят новой разработке серьезные перспективы. Андрей Терехов, генеральный директор «Ланит-теркома» говорит: «Если новая разработка действительно позволяет распознавать около 90% процентов речевого потока, который записан без особых стараний со стороны говорящего, без „вычеканивания“ каждого слова, то, безусловно, эту технологию можно назвать прорывом в области audio data mining». Согласен с ним и Виктор Бочаров. Он уверен, что у данной технологии хорошие перспективы, так как появляется возможность производить поиск по большому количеству информации, существующему только в звуковой форме. «Я думаю, что интеграция этой функции в поисковые системы будет пользоваться успехом у пользователей», — полагает лингвист.


Хотя в «Яндексе» называют аудиопоиск преждевременным, разработчики уверены, что кому-нибудь он обязательно пригодится

В ЦРТ считают, что новая технология будет пользоваться спросом в крупных системах обработки, хранения и анализа данных. Модули, созданные на базе Voice Digger, позволят оперативно обработать не только текстовые, но и мультимедиа-данные и получить на выходе систематизированные выборки по интересующей пользователя тематике.

В качестве примера аналогичной западной разработки можно привести компанию TVEyes. Фирма создала поиск по содержимому аудио- и видеопотоков. TVEyes предоставляет своим клиентам возможность производить поиск по ключевым словам среди содержимого ведущих телеканалов и радиостанций США, Канады, Великобритании и Австралии. Для отдельного пользователя пользование услугами TVEyes в зависимости от предоставляемых возможностей составляет от $0 до $5000 в месяц.

Техподдержка «Базальт СПО» — гарантия надежной работы вашей ИТ-инфраструктуры
Маркет

Огромное количество аудио- и видеофайлов, выложенное в интернете, даёт большое поле для расширения сферы поиска традиционных поисковиков. Ранее Google сообщал о том, что в 2006 г. будет запущен интернет-поиск по содержимому аудиофайлов, но этого пока не произошло. В «Яндексе» отмечают, что в силу ограниченности вычислительных мощностей время для этого еще не пришло. «Количество аудиофайлов в Рунете исчисляется миллионами, и заранее не известно, является ли файл музыкой или речью, на русском или английском. Качество распознавания и скорость обработки могут стать препятствием для индексации больших массивов речевой информации», — считает Александр Садовский, руководитель отдела веб-поиска «Яндекса».

Тем не менее, генеральный директор «Центра речевых технологий» Михаил Хитров уверен, что у разработки его компании есть большие перспективы: «В связи со все более активным использованием естественного интерфейса и, в частности, голоса для общения с техникой возросло и значение аудиозаписи как единицы носителя информации. Появилась потребность в системах, способных быстро и эффективно обслуживать аудио-архивы и находить нужную информацию в большом объеме записи».

Даниил Иванов