Оффлайн распознавание речи в Android 4.1

В очередном обновлении Android 4.1 Jelly Bean появилась функциональность оффлайн распознавания речи. Теперь использовать голосовой ввод можно даже тогда, когда отсутствует подключение к интернету. На конференции Google IO был продемонстрирован Galaxy Nexus, с помощью которого можно было произнести целую фразу и получить распознанный текст.

На данном этапе доступен только английский язык, но Google обещает добавить поддержку остальных языков в ближайшем будущем. О том, как интегрировать технологию Voice Typing в свое приложение можно прочитать здесь.

Банкоматы Сбербанка будут работать по принципу детектора лжи.

Банкоматы Сбербанка будут работать по принципу детектора лжи. Банк разворачивает сеть терминалов, оснащенных  программой анализа голоса и распознавания отпечатков пальцев, рассказали «Газете.Ru» в Сбербанке. Также банкоматы сканируют документы. Основная цель нововведения, по словам представителя Сбербанка, снизить уровень мошенничества с банковскими картами. При выдаче кредитов устройства могут использоваться как детектор лжи для потенциальных заемщиков.

При ответах на вопросы «Работаете ли вы?», «Есть ли у вас непогашенные ссуды?» машина анализирует вибрацию голоса, его темп и приходит к выводу, обманывает ее клиент или нет. О подготовке к запуску «модульных офисов» банк впервые сообщил в начале сентября 2010 года. Теперь планируется, что новые терминалы будут установлены во всех отделениях Сбербанка. Система голосового анализа разработана Центром речевых технологий. Программа анализирует вибрацию и тон голоса, и определяет отклонение от нормы. Cистема не только распознаёт речь человека, но и сканирует паспорт гражданина, берёт его отпечатки пальцев, а также составляет 3D-слепок его лица

Для получения «правдивого» спектра в работе используются заведомо простые, безразличные для испытуемого вопросы – адрес, семейное положение, наличие детей и т. д. Затем могут задаваться вопросы, ответы на которые могут быть ложными. Спектр сравнивается. 100-процентного результата такая система не дает, как и детектор лжи, который дополнен датчиками потливости и т. д. Люди, владеющие собой, могут обмануть аппаратные комплексы за счет специфических ответов, знания особенностей работы детектора, контроля за ситуацией.

По мнению члена комитета Госдумы по финансовому рынку Павла Медведева, банкам было бы выгодно внедрять новые эффективные меры определения качества заемщика. «Но возникает другой вопрос – наличие документа о том, что потенциальному заемщику предстоит испытать. Возможно, перед использованием такой процедуры человек будет предупрежден об использовании детектора лжи и сам будет выбирать свои дальнейшие действия», – говорит Медведев, добавляя, что с точки зрения законодательной базы весьма сложно разработать закон о полиграфе.

В крупном банке, работающем на территории России, идею Сбербанка назвали «бредом»: «Даже если заемщик даст свое согласие, то при использовании детекторов лжи ошибки возникают в 50% случаев. При таких рисках сколько будет ставка по кредиту – 100%?!»

Работающая технология идентификации языка речи

Чешская компания Phonexia, занимающаяся  речевыми технологиями, предоставляет доступ к демонстрационным версиям программ. Например, технология идентификации языка говорящего по звуковому файлу.  Такие решения могут быть полезны при анализе больших объемов речевой информации, в call-центрах, мониторинге СМИ. После регистрации на указанный e-mail высылается ключ, по которому можно пользоваться демо-программой в течение месяца с запуском только при наличии интернета.

По умолчанию программа настроена на обработку списка файлов. Но можно настроить обработку всего каталога (например, по умолчанию process/input). Нажатие на виртуальный выключатель  запускает обработку всех файлов для анализа языка.

Само собой, что язык в демо-файлах распознается на 100%. Готовой базы для тестирования распознавания языков нет, поэтому о реальных результатах качества распознавания говорить сложно.

Подборка ссылок по распознаванию речи

Постараюсь обновлять здесь список страниц, где можно почерпнуть информацию о распознавании речи. В основном — книги и статьи.

Ресурсы по родственной тематике:

  • corpuscul.net создание звука и музыки, психоакустика, теория звука, звукорежиссура и т.д.
  • wikisound.org — Энциклопедия звука. Статьи о звуке, обработке, записи, VST и многое другое

 

Используем Google Voice Search в своем приложении .NET

Публикую свой топик с хабрахабра.

Функция распознавания речи с некоторого времени доступна в браузере Google Chrome . Посмотреть как это выглядит можно, например, здесь.

Так как исходный Chromium открыт, возникает закономерное желание подсмотреть, можно ли использовать технологию в своих корыстных целях наступления мира на земле.

Как это часто бывает, все уже сделано за нас в этой статье. Все оказывается очень просто, необходимо сделать POST запрос на адрес https://www.google.com/speech-api/v1/recognize со звуковыми данными в формате FLAC или Speex. Реализуем демонстрацию распознавания WAVE-файлов с помощью C# .

Читать далее Используем Google Voice Search в своем приложении .NET