Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10-20%. Код и данные распространяются под лицензией Apache 2.0...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=56171
есть неплохой вариант для теста: CHIKI-BRIKI I V DAMKI
Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только охи во второй фразе "nine oh two one oh"), русские... Ну очень тяжко и выборочно, даже очень простые.Может у меня руки такие, пробовал на "примерах API".
В общем, слово "минуту" в старой версии он распознавал как "да", а новой версии как "нет". Очень интересный результат.
бинарный я бы сказал)
> бинарный я бы сказал)Не, проблема была в неправильно указанном рейте потока (в примере 16кГц, а у них в русском тесте 8кГц). После исправления этой информации всё в идеальном порядке.
> Да, простые команды на en-us разбирает (к примеру, Python тест, смутили только
> охи во второй фразе "nine oh two one oh"), русские... Ну
> очень тяжко и выборочно, даже очень простые.
> Может у меня руки такие, пробовал на "примерах API".oh это слово для нуля по-английски
>>современный процессор"Огласите весь список, пжалста..!"
Pentium 4 не поддерживается.
90% линуксоидов в пролёте.
так толсто что даже толсто
Забей на фурнутого
От AMD Sempron 2650.
В портах FreeBSD имеется?
> Мобильная модель может использоваться в телефонахПакет в F-Droid разработчики сделать поленились, конечно.
Возьми и сделай.
Или лень, конечно?
В F-droid скоро будет. У них было требование, чтобы пакеты лежали в MavenCentral, две неделе назад переехали для этого на MavenCentral. Заявка есть уже:
День добрый, а можно ли этому Dicio подсунуть русские модели vosk? В readme не нашёл ((
Можно, но пока надо из исходников пересобирать. Скоро сделаем загрузку из приложения.
>Серверной модели для работы нужен современный процессор и 8Гб памяти.Мда. А какова просадка качества по сравнению с "мобильной" моделью?
>>Серверной модели для работы нужен современный процессор и 8Гб памяти.
> Мда. А какова просадка качества по сравнению с "мобильной" моделью?В таблице с моделями есть цифры ошибок. Для колонок 11.89 процентов вместо 8.65.
А что это за "проценты"? Проценты от чего? На сайте вообще написано, что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц измерения. Пока что мне эти числа вообще ничего не говорят, кроме того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30. 30 это что? Если модель делает 30 % ошибок, то её вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять. Ежели это ошибки/скорость, то всё вообще не понятно. Если это 30% от соотношения, делаемого худшей моделью, то возникает вопрос, сколько ошибок делает худшая модель на обычном тексте. Вообще мне срать на метрики, если я не могу использовать эти метрики чтобы понять, годится мне модель, или нет.
> А что это за "проценты"? Проценты от чего?Ошибки распознавания обычно считаются в процентах от числа слов в тестах.
На сайте вообще написано,
> что это соотношение уровень ошибок/скорость. Опять же, всё зависит от единиц
> измерения. Пока что мне эти числа вообще ничего не говорят, кроме
> того, что "мобильная" модель чуть хуже на "колонках" чем "серверная", причём
> на "аудиокнигах" всё выглядит куда менне радужно, там вообще какие-то 30.
> 30 это что? Если модель делает 30 % ошибок, то её
> вообще нельзя использовать, проще руками транскрибировать, чем каждое третье слово переправлять.На чистых записях процент ближе к 10-15, что приемлемо. 30% обычно на очень шумных записях.
> Вообще мне срать на метрики, если
> я не могу использовать эти метрики чтобы понять, годится мне модель,
> или нет.Тут только один вариант - попробовать самому.
Я больше скажу, "серверной" модели нужно 8ГБ для работы, а для загрузки 12ГБ. Так что ООМ киллер у меня повеселился, пока не догадался лишнее позакрывать.
Мне нравится вот это :-)
> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
> Мне нравится вот это :-)
>> Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.1) каких моделей колонок следует избегать, чтобы не работать
поставщиком голосовых данных забесплатно ?2) как вдуть на голосовые колонки мусор (и какой именно мусор),
чтобы у них всю модель перекосило к чертям ?
> каких моделей колонок следует избегать, чтобы не работать поставщиком голосовых данных забесплатно ?Всех проприетарных. Можно открытые устройства использовать, вроде RPi4 с Воском и микрофонами Respeaker.
> вдуть на голосовые колонки мусор (и какой именно мусор), чтобы у них всю модель перекосило к чертям ?
Мусор фильтруется, особого смысла в нём нет. Можно скрытые данные какие-то посылать, правда, их использовать потом не просто.
1) интеграция с СОРМ-1 (не путать с СОРМ-2) есть ?2) хорошо ли распознаются спецтермины: взрывчатка, оружие, убийство, ликвидация, конспирация, детонатор, инициатор, заряд, засада, снайпер ... и далее по списку: https://rense.com/general66/scgh.htm с поправкой на РФ специфику.
У вас неактуальные ключевые слова. Актуальные - это "доллар", "евро", "биткоин", "эфир", "мессенджер", "пенсионный возраст", "Верзилов", "Быков", "Навальный", "Новичок".
1) или так.
2) классика вечна. и не "тералист", а "борец за свободу" !
1. Заходишь на сайт
2. Выполняешь инструкции Usage examples Python
3. Traceback ... ModuleNotFoundError: No module named 'vosk.vosk_cffi'
Типичная программа на питон
Вряд ли, скорее всего это твои типичные руки. Но cffi намекает на то, что там обёртка на питоне вместо питона, это довольно нестандартно.
ничуть не сомневался что прибежит какой-нибудь фанатик и будет рассказывать как я по инструкции все неправильно сделал, и что у меня все криво и вообще я сам должен все отладить и допилить напильником
Не знаю как насчёт фанатиков, а то что ты 1 вызов cffi назвал типичной программой на питоне уже многое сообщает окружающим о твоей квалификации.
Или он в курсе и квалифицирован, а инструкция гавно?
Вряд ли, ведь он приплёл питон и сморозил глупость, а не просто поныл на тему низкого качества опенсорса.
О чем Вы? Я никаких инструкций не читал, получил ответ "нет модуля такого-то", поставил (через pip3) и дальше проверил.
В чем вопрос? Если Вам ссылку на github дают Вы удивляетесь, что Вам нужен браузер/git client? Или опять ничего не понял?
А если сабж просто из pypi накатить? В ридми нет ничего про это, но на сайте есть инструкция. Это называется низкое качество документации. По сайтам никто ходить не будет, и при этом им нужно всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения своего левого сайта.
Если бы у бабушки было бы pypi, то она бы была бы дедушкой. Если Вы хотите того, чего Вы не понимаете -- это лично Ваши проблемы. Я не защищаю авторов, просто не понимаю позицию хейтера.
> А если сабж просто из pypi накатить? В ридми нет ничего про
> это, но на сайте есть инструкция. Это называется низкое качество документации.
> По сайтам никто ходить не будет, и при этом им нужно
> всех прозондировать телеметрией, посчитать и записать. Ради этого они требуют посещения
> своего левого сайта.В ридми на гитхабе бесполезно что-то писать, гитхаб гуглом не индексируется (специально это или нет, не знаю). Поэтому процветают всякие мусорные клоны гитхаба вроде fastgit.
Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?
> Т.е, вы полагаете, что разработчик, скопировавший себе репу (или читающий код на
> гитхабе), пойдёт гуглить how to install project name, вместо того, чтобы
> открыть текстовый файл INSTALL (в котором перечислены зависимости и процесс сборки/установки)?Да, так большинство "разработчиков" и делают.
Для анализа проблемы хорошо было бы увидеть:1. Версию OS (не Alpine какой-нибудь?)
2. Версию Python
3. Полный вывод из терминала со списком файлов в текущем каталоге.
А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а всё указывает, что верна), и если не пытались, есть шанс, что она сильно уменьшится.
> А агрессивно прунить серверную модель пытались? Если lucky ticket hypothesis верна (а
> всё указывает, что верна), и если не пытались, есть шанс, что
> она сильно уменьшится.Это в процессе. Рабочих рук не хватает на все идеи, как всегда.
Совместимость со speech-dispatcher, espeak, и всем таким, имеется? В качестве бэкенда к CMU Sphinx его можно подключить?
> Совместимость со speech-dispatcher, espeak, и всем таким, имеется?нет, они же для синтеза, а не для распознавания.
> В качестве бэкенда к CMU Sphinx его можно подключить?
нет, тоже особой необходимости в этом нет.
> нет, они же для синтеза, а не для распознавания.Да, это я проспал, конечно,
>> В качестве бэкенда к CMU Sphinx его можно подключить?
> нет, тоже особой необходимости в этом нет.А это вот странно. Многие годы Сфинкс был стандартным движком распознавания голоса для Linux.
Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы он хоть что-то понял.
Не пойму, почему не сделать распознавание по словарю, ведь точность была бы выше.
> Попробовал на английском. Какое же убожество, приходится по 10 раз повторять, чтобы
> он хоть что-то понял.
> Не пойму, почему не сделать распознавание по словарю, ведь точность была бы
> выше.Распознавание ведётся по словарю. По поводу точности распознавания, мы собираем записи для анализа, можете прислать образец, посмотрим, что там.
Может словарь слишком велик. Там при установке стоят 4 скилла. Каждый скилл активируется своим набором команд, но распознавание распознаёт вообще любые слова, хотя по логике как стартовое слово должен распознавать только те, которые заданы в скиллах. Вот это странно.
Ну может конечно у меня произношение на английском не очень.P.S. Нашёл какой-то родственный что ли проект https://github.com/alphacep/kaldi-android-demo/releases/down... так вот там на русском всё отлично. Как бы его вот сюда прикрутить?
А, блин, я коммент не сюда добавил. Пробовал-то я приложение dicio