Издание linux.com опубликовало (http://www.linux.com/news/software/applications/878287-mycro.../) интервью с руководителем проекта Mycroft (https://mycroft.ai/), создатели которого собрали в Kickstarter и Indiegogo около 260 тысяч долларов на разработку умного устройства, позволяющего управлять домашней электроникой через голосовой интерфейс. В интервью упоминается
открытие (https://mycroft.ai/first-open-source-intent-parser-adapt-rel.../) разработанного проектом компонента Adapt Intent Parser (https://github.com/MycroftAI/adapt), который позиционируется как "мозг" Mycroft, выполняющий задачи разбора фраз на естественном языке, их анализа и трансформации в управляющие команды. Например, при поступлении фразы "выключи свет в зале" Adapt выявляет команду "выключи свет" и определяет место её применения "зал".
<center><iframe width="640" height="360" src="https://www.youtube.com/embed/m4L0QfzUeEI?rel=0" frameborder="0" allowfullscreen></iframe></center>Несмотря на то, что Adapt Intent Parser характеризуется как ключевое звено в платформе и разработчики намерены конкурировать с Amazon и Google в области систем распознавания речевых команд, на деле Adapt Intent Parser представляет собой (https://github.com/MycroftAI/adapt/tree/master/adapt) около 600 строк кода на языке Python, разбирающих текст на токены при помощи регулярных выражений. Пока непонятно, как именно производится распознавание речи, так как в разработчиками заявлено (https://mycroft.ai/faq/), что программное обеспечение написано с нуля и работает поверх платформы Ubuntu Snappy Core на плате Raspberry Pi 2.
<center><iframe width="640" height="360" src="https://www.youtube.com/embed/zR9xvPtM6Ro?rel=0" frameborder="0" allowfullscreen></iframe>
</center>
URL: http://www.linux.com/news/software/applications/878287-mycro.../
Новость: http://www.opennet.dev/opennews/art.shtml?num=43694
Готов поспорить, что в итоге окажется, что там используется Google Voice API :-)
Они используют pocketsphinx, что сути не меняет.
Собственно, распознать сказанный текст - это самое начало работы.
Потом еще нужно переварить его в конкретный приказ (либо определить, что приказа не было).
Так что, с одной стороны, разработчикам можно позавидовать (работа-то интересная, творческая), а с другой стороны - им не позавидуешь (убогость того, что получится в результате, весьма предсказуема).
IBM выложило наработки на основе которых Watson сделан. Пользуйся, если сможешь.
Все эти распознавалки имеют большой порог вхождения: нужно изучить теорию и исходники чтобы начать использовать.
Бы ло бы интересно если кто-нибудь сделал прослойку попроще. Что-то типа утилитки которой кормить фразы для обучения. И демона, которому в конфиге прописываешь фразу а он запускает указанную команду.P.S. Походу ребята как раз и написали просто свою оболочку. Но посмотрев их доку, тоже черт ногу сломит.
Писал такое на JS с использованием API от yandex. Порог вхождения крайне низок.
> Писал такое на JS с использованием API от yandex. Порог вхождения крайне
> низок.И что получалось по запросу "Где мои трусы?"
Но при падении интернета - превращается в тыкву. Хочешь включить свет, а интернета нет.
Похоже подготовка презентации проекта заняла больше времени, чем написание кода.
Что-то много последнее время стало разводов на Kickstarter.
По вашему распознавание через Google Voice API и написанный за вечер парсер это сдержанное обещание? И всё это стоит 260 тысяч долларов?
самое интересное что на собранные деньги даже не купить норм. инфраструктуры ( и оплатить аренду помещения ) для данной разработки таких вещей, не говоря уже об обучающих наборах ( ради которых некоторые плюют на репутацию и включают микрофоны в ОС-ках ).
и почему я не слышу знакомого: «попилы»?
ах да, у них же там это «по определению» не возможно
> и почему я не слышу знакомого: «попилы»?
> ах да, у них же там это «по определению» не возможно600 строчек на питоне взамен денег на кикстартере больше похоже на кидалово.
Походу, котики лучше речь понимают, чем это чудо техники
Годно, нужно. Деньги заносил.
Хорошо бы иметь подобное на Ubuntu phone.
❤ Ubuntu Snappy Core
Из репозитория поставь sphinx, julius, kaldi, GnomeVoiceControl или simon.apt-cache search "speech recognition"|wc
25
> Годно, нужно. Деньги заносил.Деньги заносил, чтобы авторы могли научиться готовые пакеты из репозитория поставить и обвязку на Python написали? Деньги нужно было авторам pocketsphinx заносить, а не этим "предпринимателям".
> нужно было авторам pocketsphinx заноситьНе жаль и им занести, но донаты не принимают.
> Пока непонятно, как именно производится распознавание и синтез речиНу кому интересно, можно и исходники посмотреть..
https://github.com/MycroftAI/adapt
>> Пока непонятно, как именно производится распознавание и синтез речи
> Ну кому интересно, можно и исходники посмотреть..
> https://github.com/MycroftAI/adaptО том и новость, что там 600 строк кода обработки строк на Python и ничего про распознавание речи.
Вся суть кикстартера. Собрали бабло - Потратили - Написали обвязку к готовому сервису - Через пару месяцев шумиха утихнет и компания пропадет.
Не угадал анон. Прошло 2 года, а компания живет и здравствует. ;)
Судя по вот этому файлу https://github.com/MycroftAI/adapt/blob/master/adapt/parser.py они таки используют Google Voice API, т.к. теги confidence и utterance есть json ответе GVAPI, хотя я могу и ошибаться.