Проект OpenAI, занимающийся развитием общедоступных проектов в области искусственного интеллекта, опубликовал наработки, связанные с системой распознавания речи Whisper. Утверждается, что для речи на английском языке система обеспечивает уровни надёжности и точности автоматического распознавания близкие к распознаванию человеком. Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей, готовых для использования. Код открыт под лицензией MIT...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=57812
Ну, что ж - спасибо что не под проприетарной лицухой "for special services only". Скоро ждём оффлайн-автогенератор субтитров с переводом к онемэ. :)
Ээээээ на твоейтрубе оно уже даже онлайн вроде как, и с переводами разными.
Короче и в блекджек уже отыграли и всех шл"%;!" утомили ...
Нооо, нам нужны субтитры для прона, а не для ютуба.
*звуки симулирующего стона на японском*
Он сумеет распознать симулируещие от несимулирующих...? Круто!
Бинарный предиктор, кстати, это должно быть просто написать!Проблема разметить базу.
а мат будет звездочками забивать или писать как есть?
Писать будет только в платной версии с максимальной моделью )
Далеко не для всего на Ютубе есть автосубтитры. Особенно, если язык по умолчанию для выложившего не совпадает с языком видео. И далеко не всё пускают на Ютуб.
"special services" - это псевдоанглицизм, дословный перевод русского слова "спецслужбы", носители языка используют либо словосочетание "intelligence community", что на руский дословно переводится как "разведовательное сообщество", либо "law enforcement", что вообще не переводится на русский, но можно приблизительно перевести как "[службы по] обеспечению выполения законов силовым путём" (при этом часть в квадратных скобках не произносится и подразумевается).
> либо "law enforcement", что вообще не переводится на русский, но можно приблизительно перевести как "[службы по] обеспечению выполения законов силовым путём" (при этом часть в квадратных скобках не произносится и подразумевается)."Исполнительная власть"
> "law enforcement""Силовики".
согласен, но, русский пополнил мировую культуру, английский, не только with troyka, vodka, sputnik and Cheburashka, but also with
the Siloviks!
PS: BTW Waiting next stage for "the slaboviks"
law enforcement = правоохранительные органы
Компетентные органы
лучше бы запилили хороший переводчик с китайского. у них конечно много всякого говна написано, но есть новеллы про мотоблоки которые я хотел бы дочитать. а буржуи бросают перевод при малейшем намеке на нарушение авторских прав.
Слушаемся и повинуемся. Вот ваше блюдечко с устрицами.
Этот да дорога овощ блюдо мужчина устрица пластина сын.
Закручиный думать длинный покупатель алиэкпрес ?
Нет уж, обойдётся ананасами с рябчиками.
Съешь ещё этих мягких французских булок, да выпей же чаю
> система также может переводить речь с произвольного языка на английский языкЧто-то тут не сходится.. тогда нейронку нужно было бы обучать всем "произвольным" языкам..
Может быть "..умеет переводить распознанный английский на произвольный язык" - это более логично.
Даже по диаграмме видно что там именно так как сказанно, тоесть переводит с произвольного языка на английский.
Да всё верно, изначально прочитав:
> 680 тысяч часов речевых данных, собранных из нескольких коллекций, охватывающих разные языки и тематические области- я почему-то подумал что именно 680тыс часов англ речи.
>тогда нейронку нужно было бы обучать всем "произвольным" языкам..Google Translate это уже и так более-менее умеет. Он переводит "всё, что угодно" через word2vec-промежуточный язык.
А дальше можно пропустить его переводы через TTS. Само по себе это не будет работать, но вот в качестве "дообучения" для системы, изначально натренированной на нормальных аудиозаписях -- может.
Уже переводит "казнить нельзя помиловать"?
И замок!
> Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffaloНахера херню захерячил, - расхерячивай нахер
Нафига фигню завигячил, - расфигячивай нафиг
Нах хню захнячил, - расхнячивай нах
...И любой славянин воткнет о чем речь в отличие от Бафалло, которое трудно назвать обиходным ;)
Кстати, в теории передачи информации, славянские языки считаются наиболее избыточными и требуют наличие более высокого пропускного канала для обеспечения полной передачи информации, но при этом славянские языки являются наиболее устойчивыми к потери звуков где мозг способен восстановить передавaемую информацию с наибольшей вероятностью (даже выкинув все глаcсные, все равно остается возможность восстановить смысл многих предложений). Англо языковая группа, наоборот, наиболее лаконичная, т.к. не имееют такого излишества с приставками и окончаниями, которые позволяют славянским языкам с одним корневым словом передавать различные окраски и даже смысл.
> Англо языковая группаИ тут мои преподаватели из лингвистического университета перевернулись в гробах
Есть West Germanic languages и в каком пьяном угаре ее можно перевести «англо» наука понять не можетСлавянские языки это вообще сомнительное обобщение
Современный русский язык являясь одним из 4 восточнославянских по неведомым науке причинам сами русские любят объявлять наследником древнеболгарского(они его называют церковнославянским), хотя тот относится к южнославянским и никаким боком к русскому не имеет отношенияНикаких «славян» вообще не существует, есть ЯЗЫКОВАЯ общность славянских языков. И носители всех других славянских как раз русский понимают с трудом, а носители русского вообще не понимают никаких других. И твою фигню расфигаченную не поймет носитель другого славянского языка(ну кроме принудительно русифицированных носителей беларуского, украинского или русинского)
Пример с Баффало это лишь один из примеров, просто самый простой и я его всегда показываю тем, кто несет чушь про багоизбранность русского языка. Я могу и из английского еще примеров насыпать, и из мандарина, из польского, ну и еще языков из 10 точно, в крайнем случае напишу бывшим однокурсникам
Ноу, Аноним42, если бы название "церковно-славянский" было исконно русским идеологическим конструктом, по-английски бы его и писали как-нибудь навроде Olde Bulgar, тогда как англосаксы пишут Old-Church Slavonic.И, кажется, никто не считает его предком русского языка, как и не считает "старославянский" (предок югославского), кроме "народно этимологии".
> Современный русский язык являясь одним из 4 восточнославянских по неведомым науке причинам сами русские любят > объявлять наследником древнеболгарского(они его называют церковнославянским), хотя тот относится к южнославянским > и никаким боком к русскому не имеет отношенияДа ведь церковно славянский язык был создан как обобщение нескольких языков.
Как русский язык может происходить от церковно славянского языка?
Никак.
На арабском напиши. Каких-то 100 лет назад его все знали.
никакого "арабского языка" не существует (либо "не существовало до начала вещания Аль-Джазиры").
как и самих "арабов".
существует тысячи ближневосточных племен и сотни союзов племен, не все из них друг другу друзья.
Окей, шлем Ивана Грозного тоже Аль-Джазира расписывала.
> Окей, шлем Ивана Грозного тоже Аль-Джазира расписывала."Иван" "Грозный" - легенда.
у кого-то были короли-олени или короли-дельфины, а нам досталось "норманнская теория (рюриковичи)" и "монголо-татарское иго".
ну так - Миллер со Шлёцером не просто так биткоины свои кушали! Но фотки шлема ты, всё-таки, погляди. Он вообще из другой теории.
> И тут мои преподаватели из лингвистического университета перевернулись в гробахНу, если это те самые преподаватели, которые научили вас извергать столько желчи, то понятно почему крутятся
Ну я вот сейчас общаюсь с девушкой из Польши на одном из серверов Дискорда. Я ее польский понимаю, она мой русский нет. Поэтому общаемся либо по-английски либо по польски со встроенным в яндекс клавиатуре на телефоне переводчиком. Вполне нормально, только иногда править фразы приходится.
> И носители всех других славянских как раз русский понимают с трудом, а носители русского вообще не понимают никаких других.Полное вранье. Русские понимают тех же поляков, чехов, болгар, не говоря уже о древних украх и не менее древних белОрусах.)))
> Кстати, в теории передачи информации, славянские языки считаются наиболее избыточнымиСсылку можно на статью, которая показывает это?
Я вопросом не занимался намеренно, но когда самообразования ради изучал сжатие текстов, там выходило, что если в предсказательную модель заложить грамматику, то один хрен все языки давали один и тот же коэффициент сжатия. Но я бы с радостью обновлю свою картину мира, и поэтому заклинаю тебя, кинь ссылку на статью, которая считает избыточность кодирования языков и сравнивает. На ту статью из который ты узнал об этом.
А в чём сложность? Кодируешь или в 0 или 1. Остаётся 1 бит, который вмещает в себя вселенную.
Головой думать не приучен? Гуманитарий?
> На ту статью из который ты узнал об этом.Какая статья? Я же написал, - теория передачи сигнала, изучается в университетах, информация из памяти еще со студенческих времен
Во-первых, жители Баффало не настолько знают грамматику, чтобы это понять. Они скорее скажут Fu.k fu.k Fu.k...
Во-вторых, если то что написано на бумаге, не имеет значения в устной речи, то это никак не может быть корректным.
В-третьих, для автора этой идиоматической хрени Dmitri Borgmann, это точно приоретённый язык. Если ты не в курсе, английский язык "пишут" в Оксфорде.
В-четвёртых, все лингвисты - идиоты, потому как ищут связь слов в их звуках. Даже на опеннете найдёшь баранов, которые "изобретают" сленг для общеупотребительных слов. Что уже говорить о рождении разговорных языков, когда новые слова рождались из общения с соседнями народами, с учётом того, что общающиеся недослышали или не точно передали слово дальше по цепочке.
Что ты несёшь?
Свет.
А ты тьму.
Теперь угадай за кем пойдут.
С моделью large очень хорошо распознаёт русскую речь. Правда, на процессоре работает крайне медленно.
А насколько медленно?
Хватит 16 ядерного Райзена для распознавания речи без задержек?
1. тупо диктовка текста, но поток слов непрерывный.
2. Речевое управление. Велики ли лаги?
На 4-х ядерном Core i5 требуется более часа для распознавания минуты записи.Диктовку без пауз не пробовал, но обычную распознаёт хорошо.
Если нужно быстрое распознавание то можно посмотреть на проект Vosk. Для Android есть управлялка Dicio на Vosk, её даже телефоны (мощные) тянут.
Где скачать?
Может у меня глаз замылился, но смотрю и вижу только описания разные без ссылки на скачивание.
Можно поглядеть PKGBUILD пакета в Archlinux, там есть команды сборки.
А шотландский акцент поддерживает? :-D
Я один такой тупой, что не могу найти где скачать готовые модели?
Если один, подкиньте пожалуйста URL где это сделать, а то в упор не нахожу.> Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей, готовых для использования.
И где? Здесь https://github.com/openai/whisper/blob/main/model-card.md&nb...только описание этих моделей.
Сам себе отвечаю. Нашел внутри файла _init_.py_MODELS = {
"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd5...,
"tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147...,
"base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a85...,
"base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0...,
"small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953a...,
"small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf7...,
"medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440...,
"medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae...,
"large": "https://openaipublic.azureedge.net/main/whisper/models/e4b87...Можно скачать отдельно. Люблю когда все локально.