CEX.io

воскресенье, 22 мая 2011 г.

Движки с открытым исходным кодом для распознавания голоса

Наиболее известные движки, для распознавания слитной речи
(преобразования речи в текст/speech recognition), с открытым исходным кодом.
  • CMU Sphinx - движок по распознаванию голоса, поддерживаемый институтом Карнеги Меллон
  • HTK - Инструменты для работы со скрытой марковской моделью/Hidden Markov Model Toolkit, поддерживаемый Кембриджем CUED HTK LVR
  • Julius - Высокопроизводительный двух проходной движок (LVCSR) распознавания слитной речи, с большим словарным запасом, разрабатываемый с 1997 года, и поддерживаемый "Консорциумом распознавания слитной речи (CSRC), Япония" (2000-2003), в настоящее время "Консорциумом интерактивных речевых технологий (ISTC)"
  • simon - Проект предоставляет готовый к использованию интерфейс для CSR движка Julius, который может потребоваться ребенку-инвалиду, который не в состоянии использовать клавиатуру в полной мере. Программа интегрируется с Windows и Linux(X11)
  • iATROS (улучшенный ATROS), это новая реализация предыдущего движка распознавания речи, который был адаптирован для использования, как распознавания речи, так и рукописного распознавания текста. iATROS имеет модульную структуру, которая может быть использована для создания различных систем, основой является поиск по алгоритму Витерби, скрытой Марковской модели. iATROS обеспечивает стандартные инструменты для распознавания в автономном режиме и онлайн распознавания речи (на основе модулей ALSA)
  • FreeSpeech - проект от Open Mind Speech, часть Open Mind Initiative
  • RWTH ASR - Инструментарий включает технологии распознавания речи для разработки систем автоматического распознавания. RWTH ASR был разработан при содействии Human Language Technology и Pattern Recognition Group  университета Аахена
  • ISIP - Проект движка распознавания речи, доступного через интернет. Достоинство это модульность, легко модифицируемый разработчиками и исследователями. Дополнительно распространяются инструменты для минимизации написания тестов
  • VoxForge - Коллекция транскрипций для движков распознавания речи, таких как, ISIP, HTK, Julius and Sphinx. Используют librivox, как хороший источник аудио данных
  • OpenVXI - библиотека, которая интерпретирует VoiceXML, и выполняет речевые диалоги
  • xvoice - управление многими приложениями с помощью движка распознавания голоса, от IBM ViaVoice 
  • и другой софт

Комментариев нет: