URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 125867
[ Назад ]

Исходное сообщение
"Новые модели для распознавания русской речи в библиотеке Vosk"

Отправлено opennews , 17-Ноя-21 09:01 
Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=56171


Содержание

Сообщения в этом обсуждении
"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено 73 , 17-Ноя-21 09:01 
есть неплохой вариант для теста: CHIKI-BRIKI I V DAMKI

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено _hide_ , 17-Ноя-21 11:36 
Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только охи во второй фразе "nine oh two one oh"), русские... Ну очень тяжко и выборочно, даже очень простые.

Может у меня руки такие, пробовал на "примерах API".


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено _hide_ , 17-Ноя-21 12:09 
В общем, слово "минуту" в старой версии он распознавал как "да", а новой версии как "нет". Очень интересный результат.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено 73 , 17-Ноя-21 12:15 
бинарный я бы сказал)

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено _hide_ , 17-Ноя-21 12:49 
> бинарный я бы сказал)

Не, проблема была в неправильно указанном рейте потока (в примере 16кГц, а у них в русском тесте 8кГц). После исправления этой информации всё в идеальном порядке.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 17-Ноя-21 20:25 
> Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только
> охи во второй фразе "nine oh two one oh"), русские... Ну
> очень тяжко и выборочно, даже очень простые.
> Может у меня руки такие, пробовал на "примерах API".

oh это слово для нуля по-английски


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено ryoken , 17-Ноя-21 09:09 
>>современный процессор

"Огласите весь список, пжалста..!"


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено QwertyReg , 17-Ноя-21 10:38 
Pentium 4 не поддерживается.
90% линуксоидов в пролёте.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено 73 , 17-Ноя-21 11:05 
так толсто что даже толсто

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 11:38 
Забей на фурнутого

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 09:15 
От AMD Sempron 2650.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Пыхтачок , 17-Ноя-21 09:28 
В портах FreeBSD имеется?

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 10:04 
> Мобильная модель может использоваться в телефонах

Пакет в F-Droid разработчики сделать поленились, конечно.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 10:28 
Возьми и сделай.
Или лень, конечно?

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 17-Ноя-21 10:39 
В F-droid скоро будет. У них было требование, чтобы пакеты лежали в MavenCentral, две неделе назад переехали для этого на MavenCentral. Заявка есть уже:

https://gitlab.com/fdroid/fdroiddata/-/merge_requests/9657

https://github.com/Stypox/dicio-android


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено gegggregg , 17-Ноя-21 14:29 
День добрый, а можно ли этому Dicio подсунуть русские модели vosk? В readme не нашёл ((

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 17-Ноя-21 18:06 
Можно, но пока надо из исходников пересобирать. Скоро сделаем загрузку из приложения.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 11:36 
>Серверной модели для работы нужен современный процессор и 8Гб памяти.

Мда. А какова просадка качества по сравнению с "мобильной" моделью?


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev1 , 17-Ноя-21 11:45 
>>Серверной модели для работы нужен современный процессор и 8Гб памяти.
> Мда. А какова просадка качества по сравнению с "мобильной" моделью?

В таблице с моделями есть цифры ошибок. Для колонок 11.89 процентов вместо 8.65.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 12:02 
А что это за "проценты"? Проценты от чего? На сайте вообще написано, что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц измерения. Пока что мне эти числа вообще ничего не говорят, кроме того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30. 30 это что? Если модель делает 30 % ошибок, то её вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять. Ежели это ошибки/скорость, то всё вообще не понятно. Если это 30% от соотношения, делаемого худшей моделью, то возникает вопрос, сколько ошибок делает худшая модель на обычном тексте. Вообще мне срать на метрики, если я не могу использовать эти метрики чтобы понять, годится мне модель, или нет.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 17-Ноя-21 20:27 
> А что это за "проценты"? Проценты от чего?

Ошибки распознавания обычно считаются в процентах от числа слов в тестах.

На сайте вообще написано,
> что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц
> измерения. Пока что мне эти числа вообще ничего не говорят, кроме
> того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём
> на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30.
> 30 это что? Если модель делает 30 % ошибок, то её
> вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять.

На чистых записях процент ближе к 10-15, что приемлемо. 30% обычно на очень шумных записях.

> Вообще мне срать на метрики, если
> я не могу использовать эти метрики чтобы понять, годится мне модель,
> или нет.

Тут только один вариант - попробовать самому.



"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено _hide_ , 17-Ноя-21 11:48 
Я больше скажу, "серверной" модели нужно 8ГБ для работы, а для загрузки 12ГБ. Так что ООМ киллер у меня повеселился, пока не догадался лишнее позакрывать.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено zzz , 17-Ноя-21 11:38 
Мне нравится вот это :-)
> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено john_erohin , 17-Ноя-21 12:43 
> Мне нравится вот это :-)
>> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.

1) каких моделей колонок следует избегать, чтобы не работать
поставщиком голосовых данных забесплатно ?

2) как вдуть на голосовые колонки мусор (и какой именно мусор),
чтобы у них всю модель перекосило к чертям ?


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 17-Ноя-21 20:22 
> каких моделей колонок следует избегать, чтобы не работать поставщиком голосовых данных забесплатно ?

Всех проприетарных. Можно открытые устройства использовать, вроде RPi4 с Воском и микрофонами Respeaker.

> вдуть на голосовые колонки мусор (и какой именно мусор), чтобы у них всю модель перекосило к чертям ?

Мусор фильтруется, особого смысла в нём нет. Можно скрытые данные какие-то посылать, правда, их использовать потом не просто.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено john_erohin , 17-Ноя-21 12:03 
1) интеграция с СОРМ-1 (не путать с СОРМ-2) есть ?

2) хорошо ли распознаются спецтермины: взрывчатка, оружие, убийство, ликвидация, конспирация, детонатор, инициатор, заряд, засада, снайпер ... и далее по списку: https://rense.com/general66/scgh.htm с поправкой на РФ специфику.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 12:09 
У вас неактуальные ключевые слова. Актуальные - это "доллар", "евро", "биткоин", "эфир", "мессенджер", "пенсионный возраст", "Верзилов", "Быков", "Навальный", "Новичок".

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено john_erohin , 17-Ноя-21 12:13 
1) или так.
2) классика вечна. и не "тералист", а "борец за свободу" !

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено rshadow , 17-Ноя-21 16:08 
1. Заходишь на сайт
2. Выполняешь инструкции Usage examples Python
3. Traceback ... ModuleNotFoundError: No module named 'vosk.vosk_cffi'


Типичная программа на питон


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 16:36 
Вряд ли, скорее всего это твои типичные руки. Но cffi намекает на то, что там обёртка на питоне вместо питона, это довольно нестандартно.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено rshadow , 17-Ноя-21 16:48 
ничуть не сомневался что прибежит какой-нибудь фанатик и будет рассказывать как я по инструкции все неправильно сделал, и что у меня все криво и вообще я сам должен все отладить и допилить напильником

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 17:09 
Не знаю как насчёт фанатиков, а то что ты 1 вызов cffi назвал типичной программой на питоне уже многое сообщает окружающим о твоей квалификации.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 19:52 
Или он в курсе и квалифицирован, а инструкция гавно?

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 17-Ноя-21 21:04 
Вряд ли, ведь он приплёл питон и сморозил глупость, а не просто поныл на тему низкого качества опенсорса.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено _hide_ , 18-Ноя-21 11:51 
О чем Вы? Я никаких инструкций не читал, получил ответ "нет модуля такого-то", поставил (через pip3) и дальше проверил.
В чем вопрос? Если Вам ссылку на github дают Вы удивляетесь, что Вам нужен браузер/git client? Или опять ничего не понял?

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 18-Ноя-21 13:20 
А если сабж просто из pypi накатить? В ридми нет ничего про это, но на сайте есть инструкция. Это называется низкое качество документации. По сайтам никто ходить не будет, и при этом им нужно всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения своего левого сайта.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено _hide_ , 18-Ноя-21 20:47 
Если бы у бабушки было бы pypi, то она бы была бы дедушкой. Если Вы хотите того, чего Вы не понимаете -- это лично Ваши проблемы. Я не защищаю авторов, просто не понимаю позицию хейтера.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 18-Ноя-21 20:49 
> А если сабж просто из pypi накатить? В ридми нет ничего про
> это, но на сайте есть инструкция. Это называется низкое качество документации.
> По сайтам никто ходить не будет, и при этом им нужно
> всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения
> своего левого сайта.

В ридми на гитхабе бесполезно что-то писать, гитхаб гуглом не индексируется (специально это или нет, не знаю). Поэтому процветают всякие мусорные клоны гитхаба вроде fastgit.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 18-Ноя-21 20:55 
Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 18-Ноя-21 21:49 
> Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на
> гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы
> открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?

Да, так большинство "разработчиков" и делают.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 17-Ноя-21 20:23 
Для анализа проблемы хорошо было бы увидеть:

1. Версию OS (не Alpine какой-нибудь?)
2. Версию Python
3. Полный вывод из терминала со списком файлов в текущем каталоге.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Аноним , 18-Ноя-21 09:11 
А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а всё указывает, что верна), и если не пытались, есть шанс, что она сильно уменьшится.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 18-Ноя-21 11:54 
> А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а
> всё указывает, что верна), и если не пытались, есть шанс, что
> она сильно уменьшится.

Это в процессе. Рабочих рук не хватает на все идеи, как всегда.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено lockywolf , 19-Ноя-21 04:17 
Совместимость со speech-dispatcher, espeak, и всем таким, имеется? В качестве бэкенда к CMU Sphinx его можно подключить?

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 19-Ноя-21 11:56 
> Совместимость со speech-dispatcher, espeak, и всем таким, имеется?

нет, они же для синтеза, а не для распознавания.

> В качестве бэкенда к CMU Sphinx его можно подключить?

нет, тоже особой необходимости в этом нет.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено lockywolf , 21-Ноя-21 06:24 
> нет, они же для синтеза, а не для распознавания.

Да, это я проспал, конечно,

>> В качестве бэкенда к CMU Sphinx его можно подключить?
> нет, тоже особой необходимости в этом нет.

А это вот странно. Многие годы Сфинкс был стандартным движком распознавания голоса для Linux.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Shura , 20-Ноя-21 14:23 
Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы он хоть что-то понял.
Не пойму, почему не сделать распознавание по словарю, ведь точность была бы выше.

"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено nshmyrev , 20-Ноя-21 14:32 
> Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы
> он хоть что-то понял.
> Не пойму, почему не сделать распознавание по словарю, ведь точность была бы
> выше.

Распознавание ведётся по словарю. По поводу точности распознавания, мы собираем записи для анализа, можете прислать образец, посмотрим, что там.


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Shura , 20-Ноя-21 19:45 
Может словарь слишком велик. Там при установке стоят 4 скилла. Каждый скилл активируется своим набором команд, но распознавание распознаёт вообще любые слова, хотя по логике как стартовое слово должен распознавать только те, которые заданы в скиллах. Вот это странно.
Ну может конечно у меня произношение на английском не очень.

P.S. Нашёл какой-то родственный что ли проект https://github.com/alphacep/kaldi-android-demo/releases/down... так вот там на русском всё отлично. Как бы его вот сюда прикрутить?


"Новые модели для распознавания русской речи в библиотеке Vos..."
Отправлено Shura , 20-Ноя-21 19:56 
А, блин, я коммент не сюда добавил. Пробовал-то я приложение dicio