Опубликована версия 0.3 библиотеки vosk для локального распознавания слитной речи, поддерживающая русский язык. Для платформы Android подготовлен...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=52171
Русский мат он распознает?
Интересно, отсылает ли эта библиотека телеметрию по частоте использования различных слов.
К тебе уже выехали из КГБ нравов.
На сони zx1 не ставится (
Что пишет? Не ставится через скачивание или через adb?
Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как поставить, чтобы была видна ошибка?
> Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как
> поставить, чтобы была видна ошибка?Такое есть?
Menu > Settings > Applications and make sure “Unknown sources” is checked
Если бы этой галки не стояло, то он вообще не начал бы ставиться, сперва предложив поставить галку. Очевидно, что раз приложение ставится, значит, галка стоит.Тут, скорее, надо смотреть в сторону гапсов, поскольку аналогичное поведение я уже как-то наблюдал на старом смартфоне при попытке установить скайп - крутилась установка, потом вылетало сообщение о сбое приложения com.android.чтототам, потом еще немного - и привет "приложение не установлено".
>> Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как
>> поставить, чтобы была видна ошибка?
> Такое есть?
> Menu > Settings > Applications and make sure “Unknown sources” is checkedДа, поставлена галка. Андроид 5.1.1
>>> Тыкаю в скачанный apk. Пытается поставить, потом молча пишет "не установлено". Как
>>> поставить, чтобы была видна ошибка?
>> Такое есть?
>> Menu > Settings > Applications and make sure “Unknown sources” is checked
> Да, поставлена галка. Андроид 5.1.1logcat осилите собрать? adb logcat.
или загрузить проект в android studio и оттуда запустить.
А чего не 4?
А работает идеально.
>minSdkVersion 21Это всё, что надо знать об авторе этого пакета.
>>minSdkVersion 21
> Это всё, что надо знать об авторе этого пакета.А что с этим не так? Android Lolipop 5.0 выпуска 2014 года.
Сделав такое ограничение все с меньшими версиями де-факто были объявлены у****м*****и, недостойными юзать вашу программу. Это https://ru.wikipedia.org/wiki/Потребительство какое-то, не сказать хуже.
> Сделав такое ограничение все с меньшими версиями де-факто были объявлены у****м*****и,
> недостойными юзать вашу программу. Это https://ru.wikipedia.org/wiki/Потребительство
> какое-то, не сказать хуже.Там у ndk проблемы с рантаймом C++ для более ранних версий, не все функции поддерживались. Более ранние версии можно поддержать, но не просто.
Понятно. Извиняюсь. Спасибо за информацию.
По состоянию на май 2019 года на SDK 20 (Android 4.4) и ниже приходилось около 10% устройств.
https://developer.android.com/about/dashboardsИм уже больше 5 лет, закопайте стюардессу. Даже если бы ограничение по SDK 21+ было вызвано не плюсовыми библиотеками, а хотелкой автора, он всё равно прав.
Ну так 10% устройств означает что каждый 10 юзер имеет основания махать факом. Это, типа, мало?
У меня 10 ведро и я махаю вам этим самым. Можно?
Ну, Дунька, ты и дура - не можешь ты этим махать.
Толсто.
в Apple приложениях - до сих пор IOS 8 поддерживают.
А когда он вышел ? 2014 год, то есть 6 лет назад - может стоит откопать стюардессу и сказать что кто-то требует покупать постоянно новые устройства ?
Пошёл смотреть...
Случайная (вообще нет, ибо первое, что вспомнил просто из приложений):
My Little Pony (игра) - iOS 9
Evernote (заметки) - iOS 11
Termius (ssh клиент) - iOS 10
дедушка с android-1.0 на nokia. это все что нужно знать про этого анонима.
на спектруме тоже не взлетело
поставилась, работает.
приятно, что ест не так много ресурсов - соня не нагрелась.
@модератор. Видео тут не совсем в тему, к сожалению.
Почему? Там же про концепцию vosk во второй половине доклада?
Это видео про серверное приложение для тренировки, а не про библиотеку для андроида.Библиотека работает на kaldi доработанном.
Нормально, нужно. Для китайского и японского сделайте плиз, а то у меня небольшие проблемы с переводом устной речи в письменную (звучит одинаково, а пишется по-разному). Онлайн распознавание плохо справляется.
Китайский есть, моделька на гитхабе. Не знаю, насколько надёжно будет работать. Скорее всего, хуже чем по сети. Но может пригодиться.
Японский был бы интересней, почему-то про него все забывают. Китайский я почти не понимаю, японский разговорный и письменный в некоторой мере вполне. Но сложности с тем, как записать, я думаю будут те же (т.е. нужна эвристика и словари с угадыванием и выбором из нескольких вариантов).
с этим и японцы плачут.)) недаром они спрашивают , да и объясняют что значит имя и как пишется)) но штука интересная надо смотреть.
Они спрашивают из-за иероглифов - есть много способов записать одни и те же звуки (типа яблоко и йаблоко), плюс все иероглифы имеют по несколько значений. И родители с этим всем любят изгаляться по всякому, когда дают имя ребёнку.
С обычными словами у них всё более-менее понятно, хотя иероглифы усложняют письменность. Кстати, эти иероглифы (около 5 тысяч всего) им нужны только потому, что они слова без пробелов пишут :)
Отаку? Смотришь онимэ без субтитров?
у нас эта культура как то не сильно прижилась. хотя да учить японский по аниме проще)) пример реальной речи за бесплатно. а с правильными сабами так ваще огонь)) и я имею ввиду именно реальной речи, а не той что в учебниках. но русский все равно сложнее. ))
>у нас эта культура как то не сильно прижиласьЗато аниме прижилось.
И рок.
Типичный пример увлечения молодежи.
> И рокСкорее уж рэп
(сам слушаю металл)
У нас прижились говноозвучки. Я вот не представляю себе, чтобы какой-нибудь рядовой американец взялся озвучивать фильм (да еще выкладывать в безальтернативном порядке). Еще у нас водится такое явление, как закадровый перевод. Который можно встретить разве что в Польше (но там обычно один диктор). В мире царствуют дубляж и субтитры. Дубляж делают редко и в основном для детей. Правда, немцы любят дублировать все подряд и довольно неплохо. Может, потому что там сильна русская культура?Я уже смотрю французские и немецкие фильмы вообще без перевода. Предварительно посмотрев с ним, конечно. С возрастом озвучки вообще разлюбил, даже профессиональные. А уж дубляжи та еще приторная гадость.
И практическая польза этого ..? Ну если откинуть киберпанк и "тупые колонки"? ;)
>И практическая польза этого ..? Ну если откинуть киберпанк и "тупые колонки"? ;)Управление различными устройствами, когда руки заняты: ответить на звонок, отклонить звонок, позвонить и т.д.
Аналогично, но для людей с ограниченной подвижностью
Компьютерные игры.
Обучающие упражнения для некоторых профессий.Пока проблем две: низкое качество распознавания и (там где оно повыше) привязка к не всегда доступным серверам.
> когда руки занятыХорошо, что не рот, ХА-ХА-ХА.
Вот про инвалидов чот не подумал, да.. ну а для игр можно применить вообще_любую технологию))
>Хорошо, что не рот, ХА-ХА-ХА.Если запишешь, как ты ртом управляешь автомобилем, прокладываешь слаботочку под потолком, сортируешь кроликов, пересаживаешь цветы, месишь тесто или убираешь снег — выкладывай на ютуб и кидай ссылку сюда.
Если же твой основной род занятий, дела по дому или хобби предполагают всё время занятый рот — выкладывать ничего не надо. Хотя оно, наверное, к лучшему, что рот-то у тебя по большей части занят.
Ну, кому поржать, а я вот к управлению мультиметром прикрутить попробую.
> Ну, кому поржать, а я вот к управлению мультиметром прикрутить попробую.у вас мультиметр с андройдом/ линуксом и микрофоном? или это какой-то usb-подключаемый?
ссылку на поглазеть бы
Нет, у меня старенький HP, который умеет управляться по GPIB. А переходник на GPIB тривиально делается из ардуинки.Впрочем, новых модных USB-подключаемых вроде тоже хватает, но я не интересовался. Сейчас вообще подобного хватает - ЛБП те же.
Хм, а общий выключатель, срабатывающий по команде "гаси всё н@x" тоже, пожалуй, будет неплохой идеей
это к инженерам умного дома. но они тож ох""ревать будут.))
Не, это я применительно к своей возне с электроникой. В умном доме посложнее надо, а тут - примитива хватит. В принципе я для мультиметра сфинкса хотел использовать, а тут такой подарок
>переходник на GPIB тривиально делается из ардуинки.Не поделитесь ссылкой?
https://github.com/Twilight-Logic/AR488
Пользы никакой. Можешь бухать дальше.
Инвалидам может помочь голосовой набор. Стенограммы.
Можно общаться в чате не прибегая к помощи экранной клавиатуры.
RealDoll с распознованием речи :)
> Опубликована версия 0.3 библиотеки vosk для локального распознавания слитной речи, поддерживающая
> русский язык. Для платформы Android подготовлен...чем дальше, тем ближе Алиса Селезнева )
set Apocalypse {Алиса Селезнёва}
У меня есть сири.красиво и просто работает
И тоже без привязки к серверам?
Здесь фишка именно в том, чтобы командовать железками, не ставя об этом в известность Гугл или Эппл.
Человек не догадывается, что это _он_ есть у Сири. А у гуппла "благодаря" ему -- и окружающие :-/
Кто чей в этой связке это ещё бабушка надвое сказала.
Угу. Попытка читать релиз нотсы ооочень подводит к этой идее.
Успехов проекту. Рад, что кто-то занимается этим. Я какое-то время назад пытался толкать паровоз, тренировать сфинкса, но единственное приложение, которое позволяло голосом управлять десктопом (Simon) бросили, с тех пор в этой сфере прям дыра была. Особенно в русской среде.Рад за разработчиков, но немного не понимаю, а какие приложения подхватят ваш движок? опять всё будет только для Андроида и будет использоваться только шпионящими программами? А полезное? Чтобы голосом сказать "закрой окно", "открой фаерфокс" и пр?
Сейчас много появляется полезных приложений для RPi и мобильных. Rhasspy набирает популярность, например, и куча других умных домов.В Kodi можно встроить эту распознавалку, управлять голосом, пока руки не дошли, но скоро будет.
Эта библиотека распознаёт гораздо лучше, чем pocketsphinx, тренировать её не нужно.
>Эта библиотека распознаёт гораздо лучше, чем pocketsphinx, тренировать её не нужно.Верю. Но меня интересует именно десктоп. Есть полупарализованный знакомый, которому важно иметь нормальное голосовое управление компом. И он не один такой. Линукс когда-то предлагал что-то, что можно (при старании и понимании вопроса) применить, но всё что я знаю находится в стагнации. И распознавалки, и читалки и, тем более, управлялки.
А русскоязычные проекты тем более, вот в Альте, например, было несколько движков чтения (не знаю как сейчас), но как заставить десктопное приложение читать этим движком? они же умеют или espeak, или festival и больше ничего. И толку мне с хороших русскоязычных движков, которыми ни одно приложение не умеет пользоваться?
То же и с этой библиотекой распознавания, ну написали, пара энтузиастов прикрутит это к управлению умным домом, а остальные тупо на андроиде за пользователем будут следить :) А бедным инвалидам так и останется - винда и стандартные движки, которые тоже все теперь любют через сеть работать.
Но я нудю. Наверное.
Сделай сам, вон там пример на питоне есть. Для начала можно все свести к карте соответствий «фраза - шелл-команда»
> А русскоязычные проекты тем более, вот в Альте, например, было несколько движков
> чтения (не знаю как сейчас), но как заставить десктопное приложение читать
> этим движком? они же умеют или espeak, или festival и больше
> ничего. И толку мне с хороших русскоязычных движков, которыми ни одно
> приложение не умеет пользоваться?Для чтения у нас есть
https://github.com/alphacep/tn2-wg
Пример
https://raw.githubusercontent.com/alphacep/tn2-wg/master/tes...
Правда, для быстрой работы нужна CUDA + NVIDIA карта. И с ударениями не всегда гладко, работаем над этим.
>CUDA + NVIDIAЭто уже перебор. А результат не так уж и убедителен. Фестиваль почти так же читает. Немного больше проработки чувствуется, но целую куду на это бросать??? А что делать владельцам стааарых лаптопов с интелловской встройкой? Я понимаю, ЖД, какиенить, для оповещения о поезде, могут себе позволить такое. Народ! Спуститесь с небес, на землю, к инвалидам!
Нвидия дешевле амд, если что. Апушки в любом случае будут давать маржинальный буст и нагреваться до температуры плавления за секуды, можно не рассматривать.>стааарых лаптопов
Жируете, у вас лаптопы есть. Процессора в старых лаптопах тоже не хватит, например. Давайте жаловаться на процессоры в старых лаптопах.
На что не хватит? Старые движки на кофеварках работают.
Гляньте RHVoice. Весит немного, работает быстро, но русская (и не только) речь довольно качественная для столь небольшого движка.
>Правда, для быстрой работы нужна CUDA + NVIDIA карта.Пробовали модель перевести в ONNX и завести инференс на mxnet/plaidml (оба на OpenCL)?
>>Правда, для быстрой работы нужна CUDA + NVIDIA карта.
> Пробовали модель перевести в ONNX и завести инференс на mxnet/plaidml (оба на
> OpenCL)?Не до этого пока, синтез как и везде пока хромает.
TTS есть, но почти не видящий человек, который это всё направление тащил -- ушёл из компании (и из команды) после закрытия проекта deepsolver, где упёрлись в конфликт SAT-солверов и альтернатив в репозитории.Для озвучки orca вроде была, этот класс ПО называется screenreader.
Думаю, можно всё так же пользоваться списком рассылки https://lists.altlinux.org/mailman/listinfo/homeros для таких вопросов и обсуждений.
Не, Альтом я уже давно не пользуюсь, просто привёл пример, что у вас там было несколько пакетов читалок, от которых в самом же дистрибутиве никакой пользы, потому что ни одна программа их не использовала.Программа Орка - это издевательство какое-то (было, когда я последний раз этим пробовал пользоваться) оно читает всё что ненужно. А то что нужно - хрен допросисси (инвалиду она больше мешает) и не заткнуть рот ей никак. оооо... Это капец какой-то.
А вообще, именно парализованному человеку важнее управление голосом. И тут совсем туго в линуксе. и дошло одно время даже до того, что из пакетов qt и gtk начали выкидывать поддержку at-spi, мол, всё равно никому не нужна. И на этом, в принципе, я окончательно поставил крест на линуксе как среде с голосовым управлением.
Не знаю как парализованным, но для слепых в вин10 вроде всё есть. Линукс действительно не очень френдли для инвалидов, но при большом желании можно накалякать достаточной для использования поддержки. Правда, делать это придётся более полноценным товарищам. И воркфлоу будет довольно специфический. А в весь софт пропихивать смысла действительно нет (тем более неотключаемо), как это делают сейчас.
для совсем слепых, мне кажется, мак с его мультитачем будет удобнее - там есть voiceover gestures.
> "закрой окно"Упс... Хозяин, похоже, я оконной рамой кота перерубила...
У меня один раз студент, которому я в конце занятий сказал закрыть все открытые окна, с каменным лицом полез на подоконник. Я даже сразу и не понял в чем дело.
А есть такое же, но со вкусом эсперанто?
Faru gxin vi mem.
А чем https://github.com/alphacep/vosk от https://pypi.org/project/vosk/ отличается? На первый взгляд разные библиотеки.
> А чем https://github.com/alphacep/vosk от https://pypi.org/project/vosk/ отличается?
> На первый взгляд разные библиотеки.https://github.com/alphacep/vosk - для тренировки
https://github.com/alphacep/vosk-api - сборка для pypi (загружается на https://pypi.org/project/vosk/)
Главный то вопрос - какая точность распознавания? Понятно, что точнее DeepSpeech, но это сколько в граммах?
> Главный то вопрос - какая точность распознавания? Понятно, что точнее DeepSpeech, но
> это сколько в граммах?На IWSLT тесте (ted talks)
deepspeech 0.6 (1Gb) WER 21.10%
deepspeech tflite для андроида (50Mb) WER 48.57%
Jasper (Nemo from Nvidia) WER 12.9%
Kaldi (aspire model) WER 12.7 (серверная модель)
android-en-us WER 14.3 (модель для андроида)
О, неплохо так. Надо бы потестить.
Что-то я не понял, точность всего 48.57%? Как так если системы распознавания образов в компьютерном зрении имеют уже больше 95% точность, почему тут такая низка тончость?
Потому что маленькая библиотека звуков. Чем больше библиотека — тем меньеше ошибка.Всегда ваш, К.О.
WER сиречь Word Error Rate. Например.
>alphacephЭто в честь крайзиса что-ли?
С микрофона не распознает
> С микрофона не распознаетМодель телефона какая?
Ассистент какой-нибудь в фоне работает?
Желательно ещё logcat посмотреть.
>Языковая модель занимает всего 50Мб и работает точнее DeepSpeech (модель размером более 1Гб).
>The index is really huge, it is not expected to fit a memory of single serverКак это понимать?
Это про обучение моделей, а не про само распознавание.
Почему именно 16 kHz в примере?1. Пробовал записать wav файл с микрофона командой `arecord -vv -fdat test.wav` (48 kHz)
2. Заменил в примере 16000 на 48000
3. Скормил wav-файл скрипту, в результате удалось распознать только одну букву
> Почему именно 16 kHz в примере?
> 1. Пробовал записать wav файл с микрофона командой `arecord -vv -fdat test.wav`
> (48 kHz)
> 2. Заменил в примере 16000 на 48000
> 3. Скормил wav-файл скрипту, в результате удалось распознать только одну буквуВ исходниках там ожидается 16000, 48000 работать не будет, надо перекодировать. Можно `arecord -r 16000`, можно потом с помощью sox перекодировать.
Либо в исходниках исправить 16000 на KaldiRecognizer(model, 48000)
>> Почему именно 16 kHz в примере?
>> 1. Пробовал записать wav файл с микрофона командой `arecord -vv -fdat test.wav`
>> (48 kHz)
>> 2. Заменил в примере 16000 на 48000
>> 3. Скормил wav-файл скрипту, в результате удалось распознать только одну букву
> В исходниках там ожидается 16000, 48000 работать не будет, надо перекодировать. Можно
> `arecord -r 16000`, можно потом с помощью sox перекодировать.
> Либо в исходниках исправить 16000 на KaldiRecognizer(model, 48000)Ещё надо проконтролировать mono/stereo, стерео работать не будет.
Да, все получилось! Распознает достаточно точно, отличная либа.p.s.: если стрипнуть `_vosk.so`, то можно сэкономить ~140mb (150mb -> 11mb)
Хотя слово "тест" не хочет ни в какую распознавать.
> Да, все получилось! Распознает достаточно точно, отличная либа.
> p.s.: если стрипнуть `_vosk.so`, то можно сэкономить ~140mb (150mb -> 11mb)Отлично, да, в следующий раз добавлю strip в сборку.
Наверно, потому что голосовой диапазон такой, когда-то и 4кГц было норм. Зачем грузить проц лишними данными.
> Наверно, потому что голосовой диапазон такой, когда-то и 4кГц было норм.Вообще-то 8. Потому что человеческий голос до примерно 4кГц. И то - с "телефонным" качеством. Это тех древних штук, где голос как из унитаза.
Попробовал - дико круто!
Такую штуку бы с каким-нибудь Tasker подружить и уже можно было бы какие-то сценарии писать
> Python on Linux, Windows and RPiФутыб%#!!! Автыры не смогли в нормальную либу с нормальным апи?
На Python там лишь обёртка для собранной библиотеки.
Просьба в дальнейшем воздержаться от преждевременного гавканья в комментариях, пока не разберёшься что к чему.
> Ожидается поддержка испанского, хинди, арабского и португальского.А японский?
А также суахили и язык Навахо.
> А также суахили и язык Навахо.Ваш сарказм неуместен мне кажется https://en.wikipedia.org/wiki/List_of_languages_by_number_of...,_22nd_edition)
В очередь, леди, в очередь.Пусть япона-мама проспонсирует этот проект, тогда и поговорим.
> В очередь, леди, в очередь.
> Пусть япона-мама проспонсирует этот проект, тогда и поговорим.Никогда этого не случится, и я их прекрасно понимаю. Очень всё плохо с поддержкой cjk в открытых системах.
К сожалению язык перуанских индецев им никак не добавить. Один путешественник лингвист жаловался, что когда у этих индейцев умирает вожд они забывают слово которым звали вождя и ему приходилось часто переделывать словарь который он составлял вплот до переделки каждые два месяца.
https://github.com/alphacep/vosk-api/issues/13
> https://github.com/alphacep/vosk-api/issues/13Спасибо за тестирование, ответил на гитхабе
Под винду скоро сделаем сборку, надо appveyor освоить.
Не подскажете на каких русскоязычных датасетах вы обучали вашу модель?
Не ставится:$ pip3 install vosk
Collecting vosk
Could not find a version that satisfies the requirement vosk (from versions: )
No matching distribution found for voskЧего ему не хватает?
Вдогонку:
$ python3 --version
Python 3.6.9
$ pip3 --version
pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)
> Вдогонку:
> $ python3 --version
> Python 3.6.9
> $ pip3 --version
> pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)pip 9 вроде manylinux2010 не поддерживает, что если попробовать
pip3 install pip --upgrade
сначала?
В Убунту 18.04 обновлять pip можно только через apt, где доступен только 9.0.1. Иначе ломается.Именно это у меня и произошло:
$ pip3 install pip --upgrade
Collecting pip
Downloading https://files.pythonhosted.org/packages/00/b6/9cfa56b4081ad1... (1.4MB)
100% |████████████████████████████████| 1.4MB 606kB/s
Installing collected packages: pip
Successfully installed pip-19.3.1$ pip3 install vosk
Traceback (most recent call last):
File "/usr/bin/pip3", line 9, in <module>
from pip import main
ImportError: cannot import name 'main'
Не ломается, просто старый надо удалить, его bash подхватывает ошибочно. После обновления можно/usr/local/bin/pip3 install vosk
Вот тут ещё много советов на разный вкус:https://stackoverflow.com/questions/28210269/importerror-can...
Спасибо, 1-й совет сработал. vosk поставился.
Добавить бы эту библиотечку в какую-нибудь опенсорсную клавиатуру для Android, была бы тема. Кто возьмётся?
Samsung Galaxy J2 андроид 7.1.1 устанлвилось нлрмально, но интерфейс "спартанский" тестовый , и мой голос распознает с ошибками, очень приблизительно
> Samsung Galaxy J2 андроид 7.1.1 устанлвилось нлрмально, но интерфейс "спартанский" тестовый
> , и мой голос распознает с ошибками, очень приблизительноМожно сделать запись в файл, я посмотрю.
Не нашел как в программе записать лог, записал видео с процессом
https://yadi.sk/i/61FY7hiOWfwibQ
> Не нашел как в программе записать лог, записал видео с процессом
> https://yadi.sk/i/61FY7hiOWfwibQНу норм, одно слово пропустил всего. Задержка есть, надо нейросетку оптимизировать ещё.
А где с ошибками-то?
Молодцы! разработка прекрасная, буду думать как ее внедрить.Про ошибки распознавания: я слишком требователен ))
Из тестов, что не попали в запись, было больше ошибок. Из плюсов: слово редкое по звучанию ("математика") распознавалось надежно, когда несколько созвучных слов было - ошибки были ))
Давно искал подобную офф-лайн библиотеку, надо бы программу на свой специальный словарь натренировать, чтобы на ключевых отраслевых словах не ошибалась.
> Молодцы! разработка прекрасная, буду думать как ее внедрить.
> Про ошибки распознавания: я слишком требователен ))
> Из тестов, что не попали в запись, было больше ошибок. Из плюсов:
> слово редкое по звучанию ("математика") распознавалось надежно, когда несколько созвучных
> слов было - ошибки были ))
> Давно искал подобную офф-лайн библиотеку, надо бы программу на свой специальный словарь
> натренировать, чтобы на ключевых отраслевых словах не ошибалась.Хорошо, тренировать можно. Попозже выложим скрипты. Обращайтесь.
Спасибо! ))
Очень впечатлила ваша работа. Есть желание потренировать вашу модель подскажите где найти скрипты для тренировки, ну или хотя бы укажите направление, с чего начать.
> Очень впечатлила ваша работа. Есть желание потренировать вашу модель подскажите где найти
> скрипты для тренировки, ну или хотя бы укажите направление, с чего
> начать.Начать с изучения kaldi, наверное
https://kaldi-asr.org/doc/kaldi_for_dummies.html
https://github.com/kaldi-asr/kaldi/tree/master/egs/mini_libr...
а где взять серверные модели? не могу нагуглить
> а где взять серверные модели? не могу нагуглитьСервер:
https://github.com/alphacep/kaldi-websocket-python
Докер для сервера:
docker run -d -p 2700:2700 alphacep/kaldi-ru:latest
Модель русская:
http://alphacephei.com/kaldi/kaldi-ru-0.6.tar.gz
Модель английская:
А сырцы где? На гитхабе написано, что это байндинги.
Если вбить в гугл то, на что binding-и, первые же ссылки будут на сорцы.
Так а как хотя бы ввести что-то в текстовик или поисковик голосом с помощью этого? На Андроиде
в эстонскую Konele можно добавить в f-droid уже есть
Нужно
Оффлайн распознавалка голоса? Неужели дождались. А то всё питоно-электроно-монстры на 800 мегабайт, являющеся оболочкой над Google Assistant.
Неужели сбылось то, что обещала 25 лет назад OS/2 Warp -голосовое управление компьютером :)
Интересно, это лучше, чем обученный русскому Dragon NaturallySpeaking?
Для оффтопика русские разрабатывают Voco. Вроде бы бесплатно не найти. Системные требования i5, 4Gb RAM, стоимость 1700-14000руб, зависит от версии. А в сабже размер всего 50 мб.
Сделали ли бы прогу для автоматического титрования фильмов. Пусть даже если криво, потом можно исправить ошибки.
Наоборот - какой смысл в указанной вами проприетарщине, если вот оно - открытое, вполне приемлемо жрущее и неплохо распознающее?Что до субтитров - это тривиально делается скриптами, я так, помнится, свою коллекцию обучающих видео обрабатывал, чтобы индекс создать для локального поиска. Типа этого: https://github.com/agermanidis/autosub - при желании можно заменить там гугловскую распознавалку на сабж или любую другую альтернативу. Качество выходит дрянь, но для индекса - достаточно.
Звучит интересно. Но на Ubuntu 16.04 не поставилось. Лог https://pastebin.com/raw/VB2CdGKk
Failed building wheel for unknown
Попробую на openSUSE Tumbleweed. Там пакеты свежее.
Из под sudo можно запускать? А то что-то python pip знатно гадит в хомяк.
На старые дроиды принципиально не дают ставить или же есть объективные причины?
> На старые дроиды принципиально не дают ставить или же есть объективные причины?На старых NDK были проблемы с libstdc++ в части математических функций вроде такой.
https://eigen.tuxfamily.org/bz/show_bug.cgi?id=876
В принципе, можно собрать с небольшим напильником, но лень.
А можно ли скрестить эту распознавалку речи с синтезатором речи?
Например, через | (конвеер).Синтезаторов полно, начиная с "Festival" - http://linux.tiflocomp.ru/docs/ux_synths.php
В результате получится идеальный вокодер, в котором ваш голос уже точно никто не угадает!
Может, в этих "Быстро-новостях" голоса так и сделаны?
https://www.youtube.com/watch?v=-EEDEL63AR8>
На новой мобиле заработало. На андроид вполне приемлемое качество распознавания, и это при том, что рядом работает стиральная машина ))
@nshmyrev, скажите пожалуйста, а можно ли с помощью этой либы текст выводить в файл просто? Остро, отчаянно не хватает хотя бы простейшей оффлайн-распознавалки и под андроид, и под линукс. Прямо готов объявлять баунти, собирать людей в патреон и т.д.
Сейчас ситуация с реально_работающим_под_линукс oss софтом для распознавания определяется словом "позор", по-моему. Даже то, что есть в репах, не имеет ни GUI, ни даже CLI интерфейса для простого юзера - я имею в ввиду такого интерфейса, где не нужно было бы задавать километр параметров. И это при том, что куча движков опубликована под свободными лицензиями, и датасетов уже немало.
> @nshmyrev, скажите пожалуйста, а можно ли с помощью этой либы текст выводить
> в файл просто? Остро, отчаянно не хватает хотя бы простейшей оффлайн-распознавалки
> и под андроид, и под линукс. Прямо готов объявлять баунти, собирать
> людей в патреон и т.д.
> Сейчас ситуация с реально_работающим_под_линукс oss софтом для распознавания определяется
> словом "позор", по-моему. Даже то, что есть в репах, не имеет
> ни GUI, ни даже CLI интерфейса для простого юзера - я
> имею в ввиду такого интерфейса, где не нужно было бы задавать
> километр параметров. И это при том, что куча движков опубликована под
> свободными лицензиями, и датасетов уже немало.Можно в файл выводить, на то и библиотека. Под линуксом работает на питоне https://github.com/alphacep/vosk-api а также есть докер сервер:
https://github.com/alphacep/vosk-server
Недавно вышла большая модель с повышенной точностью:
http://alphacephei.com/kaldi/kaldi-ru-0.9.tar.gz
Спасибо за ответ,
vosk-server не ставится через pip3 на bionic, но это, наверное, не ваша проблема ))
я хотел сказать, vosk-api не ставится на бионик (
> я хотел сказать, vosk-api не ставится на бионик (Почему не ставится? pip 19 обновлён?
pip3 --version
pip 20.0.2 from /usr/local/lib/python3.6/dist-packages/pip (python 3.6)
Если ввести pip3 install vosk то ставится пакет, в к-ром только _vosk.so - но мне-то нужен vosk-api, нет?
pip3 install vosk-api отвечает
ERROR: Could not find a version that satisfies the requirement vosk-api (from versions: none)
ERROR: No matching distribution found for vosk-api
> pip3 --version
> pip 20.0.2 from /usr/local/lib/python3.6/dist-packages/pip (python 3.6)
> Если ввести pip3 install vosk то ставится пакет, в к-ром только _vosk.so
> - но мне-то нужен vosk-api, нет?
> pip3 install vosk-api отвечает
> ERROR: Could not find a version that satisfies the requirement vosk-api (from
> versions: none)
> ERROR: No matching distribution found for vosk-apiЭто он и есть. можно запускать пример.
пример? в vosk есть только vosk.py (вы с чайником разговариваете, если что ))
> пример? в vosk есть только vosk.py (вы с чайником разговариваете, если что
> ))Пример тут https://github.com/alphacep/vosk-api/blob/master/python/exam...
Traceback (most recent call last):
File "./test_simple.py", line 12, in <module>
wf = wave.open(sys.argv[1], "rb")
IndexError: list index out of range
Файл ему нужно было указать в качестве аргумента, это в readme написано:ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
./test_simple.py file.wav
В общем, жду и мечтаю, что кроме test_simple.py там будет лежать ещё notepad_simple.py ))
Распознает офигительно. Во влажных мечтах прикрутить к управлению умным домом.
Не могу установить vosk.
Имею
Win7 prof,64 разряда
Python 3.6.7 (v3.6.7:6ec5cf24b7, Oct 20 2018, 13:35:33) [MSC v.1900 64 bit (AMD64)] on win32
pip 20.2.2при попытке установки
pip -v install vosk
выдает ошибки
ERROR: Could not find a version that satisfies the requirement vosk-api (from versions: none)
ERROR: No matching distribution found for vosk-apiпри попытке установки
pip install https://github.com/dtreskunov/tiny-kaldi/releases/download/0...
выдает ошибку
ERROR: vosk-0.3.1.2-cp37-cp37m-win_amd64.whl is not a supported wheel on this platformсоответственно при попытке импорта
from vosk import Model, KaldiRecognizer
ModuleNotFoundError: No module named 'vosk'Что не так?
Под Windows поддерживается только Python 3.8 64-bit, 3.6 не поддерживается.
после написания своего поста тупо начал перебирать версии с https://github.com/dtreskunov/tiny-kaldi/releases
версия
https://github.com/dtreskunov/tiny-kaldi/releases/download/0...
вроде загрузилась без ошибок.
продолжаю тестировать
> после написания своего поста тупо начал перебирать версии с https://github.com/dtreskunov/tiny-kaldi/releases
> версия
> https://github.com/dtreskunov/tiny-kaldi/releases/download/0...
> вроде загрузилась без ошибок.
> продолжаю тестироватьЭто очень старая, к тому же, неофициальная версия.
Не работает. При запуске примера возникает ошибка: from . import _vosk ImportError: DLL load failed: Не найден указанный модуль. Есть решение?
> Не работает. При запуске примера возникает ошибка: from . import _vosk ImportError:
> DLL load failed: Не найден указанный модуль. Есть решение?1) Запустить python -v чтобы увидеть более подробную информацию о модулях
2) Убедиться, что файл с кодом не называется vosk.py, питон его перепутывает с установленным системным модулем.
установил Python 3.8.5, установил
pip install https://github.com/dtreskunov/tiny-kaldi/releases/download/0...
не хотело ставиться PyAudio, нашел способ...
pip install pipwin
pipwin install PyaAdio
вроде все готово... начало ругаться на отсутствие файлов в модели.
использую легкую модель https://alphacephei.com/vosk/models/vosk-model-ru-0.10.zip
легкая модель распакована как сказано в ролике https://www.youtube.com/watch?feature=youtu.be&v=fPKAOeUo-Rg...
перекинул все файлы из папок модели в папку model, код запустился и повис :( не вылетел, а повис как выяснилось на строке model = Model("model")
дальше не знаю пока чего делать :(
> установил Python 3.8.5, установил
> pip install https://github.com/dtreskunov/tiny-kaldi/releases/download/0...Это старая версия. Надо
pip3 install vosk
или
pip3 install https://github.com/alphacep/vosk-api/releases/download/0.3.7...
> не хотело ставиться PyAudio, нашел способ...
> pip install pipwin
> pipwin install PyaAdio
> вроде все готово... начало ругаться на отсутствие файлов в модели.
> использую легкую модель https://alphacephei.com/vosk/models/vosk-model-ru-0.10.zipЭто большая модель, маленькая тут:
https://alphacephei.com/vosk/models/vosk-model-small-ru-0.4.zip
Добрый день!Вопрос по VOSK
Движок поддерживает режим по ключевый словам, по типу, как это реализрванно в Сфинксе?
https://cmusphinx.github.io/wiki/tutoriallm/#keyword_lists
> Добрый день!
> Вопрос по VOSK
> Движок поддерживает режим по ключевый словам, по типу, как это реализрванно в
> Сфинксе?
> https://cmusphinx.github.io/wiki/tutoriallm/#keyword_listsНет, пока не поддерживает.
Здравствуйте. Установил vosk на linux все прекрасно работает. Понадобилось использовать его на Windows 10 возникли проблемы. Версия windows 64-битная. Python версии 3.9.0. pip3 версия 20.2.4. Однако после команды pip3 install vosk выдает ошибку:
ERROR: Could not find a version that satisfies the requirement vosk (from versions: none)
ERROR: No matching distribution found for vosk
Не знаю как решить данную проблемы, если кто-то с таким сталкивался, может подсказать что-то?
> Здравствуйте. Установил vosk на linux все прекрасно работает. Понадобилось использовать
> его на Windows 10 возникли проблемы. Версия windows 64-битная. Python версии
> 3.9.0. pip3 версия 20.2.4. Однако после команды pip3 install vosk выдает
> ошибку:
> ERROR: Could not find a version that satisfies the requirement vosk (from
> versions: none)
> ERROR: No matching distribution found for vosk
> Не знаю как решить данную проблемы, если кто-то с таким сталкивался, может
> подсказать что-то?Пока под Windows поддерживается только Python версия 3.8. И то мне её обновить надо, много исправлений не вошло.
Установил библиотеку Python, скачал базу, как это использовать? ОС Linux Mint 20.3