URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 128519
[ Назад ]

Исходное сообщение
"Открыт код системы распознавания и перевода речи Whisper"

Отправлено opennews , 25-Сен-22 20:49 
Проект OpenAI, занимающийся развитием общедоступных проектов в области искусственного интеллекта, опубликовал наработки, связанные с системой распознавания речи Whisper. Утверждается, что для речи на английском языке система обеспечивает уровни надёжности и точности автоматического распознавания близкие  к распознаванию  человеком. Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей, готовых для использования. Код открыт под лицензией MIT...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=57812


Содержание

Сообщения в этом обсуждении
"Открыт код системы распознавания и перевода речи Whisper"
Отправлено InuYasha , 25-Сен-22 20:49 
Ну, что ж - спасибо что не под проприетарной лицухой "for special services only". Скоро ждём оффлайн-автогенератор субтитров с переводом к онемэ. :)

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Pahanivo пробегал , 25-Сен-22 20:59 
Ээээээ на твоейтрубе оно уже даже онлайн вроде как, и с переводами разными.
Короче и в блекджек уже отыграли и всех шл"%;!" утомили ...

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 21:46 
Нооо, нам нужны субтитры для прона, а не для ютуба.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 06:06 
*звуки симулирующего стона на японском*

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено ыы , 26-Сен-22 09:48 
Он сумеет распознать симулируещие от несимулирующих...? Круто!

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 27-Сен-22 13:09 
Бинарный предиктор, кстати, это должно быть просто написать!

Проблема разметить базу.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено ыы , 26-Сен-22 09:49 
а мат будет звездочками забивать или писать как есть?

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено InuYasha , 26-Сен-22 10:46 
Писать будет только в платной версии с максимальной моделью )

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 12:58 
Далеко не для всего на Ютубе есть автосубтитры. Особенно, если язык по умолчанию для выложившего не совпадает с языком видео. И далеко не всё пускают на Ютуб.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Военный Комиссар Очевидность , 25-Сен-22 23:28 
"special services" - это псевдоанглицизм, дословный перевод русского слова "спецслужбы", носители языка используют либо словосочетание "intelligence community", что на руский дословно переводится как "разведовательное сообщество", либо "law enforcement", что вообще не переводится на русский, но можно приблизительно перевести как "[службы по] обеспечению выполения законов силовым путём" (при этом часть в квадратных скобках не произносится и подразумевается).

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 10:08 
> либо "law enforcement", что вообще не переводится на русский, но можно приблизительно перевести как "[службы по] обеспечению выполения законов силовым путём" (при этом часть в квадратных скобках не произносится и подразумевается).

"Исполнительная власть"


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 12:59 
> "law enforcement"

"Силовики".


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено mandms , 13-Окт-22 00:42 
согласен, но, русский пополнил мировую культуру, английский, не только with troyka, vodka, sputnik and Cheburashka, but also with
the Siloviks!

PS: BTW Waiting next stage for "the slaboviks"

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Igor , 26-Сен-22 21:15 
law enforcement = правоохранительные органы

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 27-Сен-22 13:08 
Компетентные органы

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 21:07 
лучше бы запилили хороший переводчик с китайского. у них конечно много всякого говна написано, но есть новеллы про мотоблоки которые я хотел бы дочитать. а буржуи бросают перевод при малейшем намеке на нарушение авторских прав.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 22:48 
Слушаемся и повинуемся. Вот ваше блюдечко с устрицами.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 23:21 
Этот да дорога овощ блюдо мужчина устрица пластина сын.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 07:50 
Закручиный думать длинный покупатель алиэкпрес ?

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 23:01 
Нет уж, обойдётся ананасами с рябчиками.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено ютуб ютубов , 27-Сен-22 16:56 
Съешь ещё этих мягких французских булок, да выпей же чаю

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено EuPhobos , 25-Сен-22 21:29 
> система также может переводить речь с произвольного языка на английский язык

Что-то тут не сходится.. тогда нейронку нужно было бы обучать всем "произвольным" языкам..
Может быть "..умеет переводить распознанный английский на произвольный язык" - это более логично.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 21:44 
Даже по диаграмме видно что там именно так как сказанно, тоесть переводит с произвольного языка на английский.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено EuPhobos , 25-Сен-22 22:35 
Да всё верно, изначально прочитав:
> 680 тысяч часов речевых данных, собранных из нескольких коллекций, охватывающих разные языки и тематические области

- я почему-то подумал что именно 680тыс часов англ речи.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 04:55 
>тогда нейронку нужно было бы обучать всем "произвольным" языкам..

Google Translate это уже и так более-менее умеет. Он переводит "всё, что угодно" через word2vec-промежуточный язык.

А дальше можно пропустить его переводы через TTS. Само по себе это не будет работать, но вот в качестве "дообучения" для системы, изначально натренированной на нормальных аудиозаписях -- может.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 22:49 
Уже переводит "казнить нельзя помиловать"?

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 25-Сен-22 22:55 
И замок!

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено OpenEcho , 26-Сен-22 02:47 
> Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo

Нахера херню захерячил, - расхерячивай нахер
Нафига фигню завигячил, - расфигячивай нафиг
Нах хню захнячил, - расхнячивай нах
...

И любой славянин воткнет о чем речь в отличие от Бафалло, которое трудно назвать обиходным ;)

Кстати, в теории передачи информации, славянские языки считаются наиболее избыточными и требуют наличие более высокого пропускного канала для обеспечения полной передачи информации, но при этом славянские языки являются наиболее устойчивыми к потери звуков где мозг способен восстановить передавaемую информацию с наибольшей вероятностью (даже выкинув все глаcсные, все равно остается возможность восстановить смысл многих предложений). Англо языковая группа, наоборот, наиболее лаконичная, т.к. не имееют такого излишества с приставками и окончаниями, которые позволяют славянским языкам с одним корневым словом передавать различные окраски и даже смысл.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним42 , 26-Сен-22 03:03 
> Англо языковая группа

И тут мои преподаватели из лингвистического университета перевернулись в гробах
Есть West Germanic languages и в каком пьяном угаре ее можно перевести «англо» наука понять не может

Славянские языки это вообще сомнительное обобщение
Современный русский язык являясь одним из 4 восточнославянских по неведомым науке причинам сами русские любят объявлять наследником древнеболгарского(они его называют церковнославянским), хотя тот относится к южнославянским и никаким боком к русскому не имеет отношения

Никаких «славян» вообще не существует, есть ЯЗЫКОВАЯ общность славянских языков. И носители всех других славянских как раз русский понимают с трудом, а носители русского вообще не понимают никаких других. И твою фигню расфигаченную не поймет носитель другого славянского языка(ну кроме принудительно русифицированных носителей беларуского, украинского или русинского)

Пример с Баффало это лишь один из примеров, просто самый простой и я его всегда показываю тем, кто несет чушь про багоизбранность русского языка. Я могу и из английского еще примеров насыпать, и из мандарина, из польского, ну и еще языков из 10 точно, в крайнем случае напишу бывшим однокурсникам


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 04:47 
Ноу, Аноним42, если бы название "церковно-славянский" было исконно русским идеологическим конструктом, по-английски бы его и писали как-нибудь навроде Olde Bulgar, тогда как англосаксы пишут Old-Church Slavonic.

И, кажется, никто не считает его предком русского языка, как и не считает "старославянский" (предок югославского), кроме "народно этимологии".


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 07:30 
> Современный русский язык являясь одним из 4 восточнославянских по неведомым науке причинам сами русские любят > объявлять наследником древнеболгарского(они его называют церковнославянским), хотя тот относится к южнославянским > и никаким боком к русскому не имеет отношения

Да ведь церковно славянский язык был создан как обобщение нескольких языков.  
Как русский язык может происходить от церковно славянского языка?  
Никак.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено InuYasha , 26-Сен-22 10:49 
На арабском напиши. Каких-то 100 лет назад его все знали.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено john_erohin , 26-Сен-22 13:40 
никакого "арабского языка" не существует (либо "не существовало до начала вещания Аль-Джазиры").
как и самих "арабов".
существует тысячи ближневосточных племен и сотни союзов племен, не все из них друг другу друзья.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено InuYasha , 29-Сен-22 11:03 
Окей, шлем Ивана Грозного тоже Аль-Джазира расписывала.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено john_erohin , 03-Окт-22 20:23 
> Окей, шлем Ивана Грозного тоже Аль-Джазира расписывала.

"Иван" "Грозный" - легенда.
у кого-то были короли-олени или короли-дельфины, а нам досталось "норманнская теория (рюриковичи)" и "монголо-татарское иго".


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено InuYasha , 03-Окт-22 22:22 
ну так - Миллер со Шлёцером не просто так биткоины свои кушали! Но фотки шлема ты, всё-таки, погляди. Он вообще из другой теории.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено OpenEcho , 26-Сен-22 11:14 
> И тут мои преподаватели из лингвистического университета перевернулись в гробах

Ну, если это те самые преподаватели, которые научили вас извергать столько желчи, то понятно почему крутятся



"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 17:28 
Ну я вот сейчас общаюсь с девушкой из Польши на одном из серверов Дискорда. Я ее польский понимаю, она мой русский нет. Поэтому общаемся либо по-английски либо по польски со встроенным в яндекс клавиатуре на телефоне переводчиком. Вполне нормально, только иногда править фразы приходится.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Neon , 26-Сен-22 17:33 
> И носители всех других славянских как раз русский понимают с трудом, а носители русского вообще не понимают никаких других.

Полное вранье. Русские понимают тех же поляков, чехов, болгар,  не говоря уже о древних украх и не менее древних белОрусах.)))


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 04:01 
> Кстати, в теории передачи информации, славянские языки считаются наиболее избыточными

Ссылку можно на статью, которая показывает это?

Я вопросом не занимался намеренно, но когда самообразования ради изучал сжатие текстов, там выходило, что если в предсказательную модель заложить грамматику, то один хрен все языки давали один и тот же коэффициент сжатия. Но я бы с радостью обновлю свою картину мира, и поэтому заклинаю тебя, кинь ссылку на статью, которая считает избыточность кодирования языков и сравнивает. На ту статью из который ты узнал об этом.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 04:15 
А в чём сложность? Кодируешь или в 0 или 1. Остаётся 1 бит, который вмещает в себя вселенную.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 09:01 
Головой думать не приучен? Гуманитарий?

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено OpenEcho , 26-Сен-22 11:11 
> На ту статью из который ты узнал об этом.

Какая статья? Я же написал, - теория передачи сигнала, изучается в университетах, информация из памяти еще со студенческих времен



"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 03:59 
Во-первых, жители Баффало не настолько знают грамматику, чтобы это понять. Они скорее скажут Fu.k fu.k Fu.k...
Во-вторых, если то что написано на бумаге, не имеет значения в устной речи, то это никак не может быть корректным.
В-третьих, для автора этой идиоматической хрени Dmitri Borgmann, это точно приоретённый язык. Если ты не в курсе, английский язык "пишут" в Оксфорде.
В-четвёртых, все лингвисты - идиоты, потому как ищут связь слов в их звуках. Даже на опеннете найдёшь баранов, которые "изобретают" сленг для общеупотребительных слов. Что уже говорить о рождении разговорных языков, когда новые слова рождались из общения с соседнями народами, с учётом того, что общающиеся недослышали или не точно передали слово дальше по цепочке.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 26-Сен-22 09:00 
Что ты несёшь?

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Гость , 29-Сен-22 01:35 
Свет.
А ты тьму.
Теперь угадай за кем пойдут.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено anonymous , 26-Сен-22 10:24 
С моделью large очень хорошо распознаёт русскую речь. Правда, на процессоре работает крайне медленно.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено _kp , 26-Сен-22 22:51 
А насколько медленно?
Хватит 16 ядерного Райзена для распознавания речи без задержек?
1. тупо диктовка текста, но поток слов непрерывный.
2. Речевое управление. Велики ли лаги?

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено anonymous , 27-Сен-22 13:25 
На 4-х ядерном Core i5 требуется более часа для распознавания минуты записи.

Диктовку без пауз не пробовал, но обычную распознаёт хорошо.

Если нужно быстрое распознавание то можно посмотреть на проект Vosk. Для Android есть управлялка Dicio на Vosk, её даже телефоны (мощные) тянут.


"Открыт код системы распознавания и перевода речи Whisper"
Отправлено Аноним , 27-Сен-22 02:30 
Где скачать?
Может у меня глаз замылился, но смотрю и вижу только описания разные без ссылки на скачивание.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено anonymous , 27-Сен-22 13:26 
Можно поглядеть PKGBUILD пакета в Archlinux, там есть команды сборки.

"Открыт код системы распознавания и перевода речи Whisper"
Отправлено FSA , 26-Сен-22 13:15 
А шотландский акцент поддерживает? :-D

"Где модели скачать?"
Отправлено Аноним , 27-Сен-22 02:24 
Я один такой тупой, что не могу найти где скачать готовые модели?
Если один, подкиньте пожалуйста URL где это сделать, а то в упор не нахожу.

> Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей, готовых для использования.

И где? Здесь https://github.com/openai/whisper/blob/main/model-card.md&nb...только описание этих моделей.


"Где модели скачать?"
Отправлено Аноним , 27-Сен-22 02:49 
Сам себе отвечаю. Нашел внутри файла _init_.py

_MODELS = {
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd5...,
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147...,
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a85...,
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0...,
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953a...,
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf7...,
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440...,
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae...,
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e4b87...

Можно скачать отдельно. Люблю когда все локально.