Состоялся выпуск открытой системы синтеза речи RHVoice 1.8.0, изначально развивавшейся для обеспечения качественной поддержки русского языка, но затем адаптированной и для других языков, включая английский, португальский, украинский, киргизский, татарский и грузинский. Код написан на С++ и распространяется под лицензией LGPL 2.1. Поддерживается работа в GNU/Linux, Windows и Android. Программа совместима с типовыми TTS-интерфейсами (text-to-speech) для преобразования текста в речь: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) и Android Text-To-Speech API, но также может использоваться в экранном ридере NVDA. Создателем и основным разработчиком RHVoice является Ольга Яковлева, которая развивает проект несмотря на полную слепоту...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=57003
Пару раз мне попадалось видео с трешеозвучкой нейронкой, так от реального голоса почти не отличить было. Как они это делают, как называется? Я так подозреваю, там что-то более современное. Есть бесплатные аналоги?
>с трешеозвучкой нейронкой, так от реального голоса почти не отличить былоЕсли от реального не отличить, то почему треше- ?
Голос унылый был. Я думал, просто дешёво озвучено, но оказалось, ещё дешевле. Такую озвучку используют, когда на диктора нет бюджета.
Ютуб еще и в обратную сторону умеет, распознавать спич в субтитры. Но получается еще унылее, особенно для русского языка - там он такие перлы выдает что охренеть. Точность распознавания процентов 70 едва ли. И это хваленый гугл...
В озвучке ценнее всего, если диктор НЕ вносит свою эмоцию. И тогда сам воспринимаешь текст, без подмешиваний от других.Ровный робо-голос - это достоинство.
А вот специальные озвучки с играми голосами и т.д. - это искажения текста, навязывающие тебе чужое восприятие, подменяющие тебе твоё чужим.
Дело не в специальной озвучке, дело в том, что синтетический голос неприятен и лажает (особенно, когда пытается в экспрессию). Ну и эмоции замечательно подмешаны уже в сам текст, который подаётся с нужным нарративом. Голосом, конечно, можно сделать немного менее очевидно, но я не знаю на кого способна повлиять манера подачи, разве что на эмоционально неполноценных людей.
Дело в специальной озвучке, которая специально себя рекламирует, как подающую текст с нарративом, который они выбрали, но не сам. Эти (коммерческие, к слову) озвучка/старания ограничивают в восприятии. Что даёт проблему существования нормальных аудио книг.А роботизированный ровный голос - не вмешивается в восприятие. Даже если непривычен. Привыкаешь к звуку робота через 5 минут на всю жизнь, точно так же, как стук колёс в поезде не мешает спать.
То есть, по-вашему, чтение стихотворений с выражением - это плохо?
> То есть, по-вашему, чтение стихотворений с выражением - это плохо?В стихах игра интонациями - специальное. Но стихи - небольшая по объёму часть литературы. Есть ещё всё остальное, где нужен "ровный" чтец. Вместо надуманных игр голосами.
coqui-ai/TTS лучше. Ну или был бы, если бы он заработал на моём комплюктере :]
Дай ПЛИЗ пример для русского языка в coqui-ai/TTS
Дай ПЛИЗ пример для русского языка в coqui-ai/TTS
Уважение человеку, которая с отсутствием зрения написала очень не плохой проект.
>не плохой"Неплохой" пишется слитно.
>2. Пишутся слитно с частицей не существительные, которые в сочетании с этой частицей приобретают противоположное значение (обычно такое слово можно заменить синонимом без не)
Д. Э. Розенталь Справочник по русскому языку: орфография и пунктуация.
> "Неплохой" пишется слитно.Следует использовать кавычки-ёлочки («»).
> Д. Э. Розенталь
При написании инициалов следует использовать неразрывной пробел.
> Д. Э. Розенталь Справочник по русскому языку: орфография и пунктуация.
Ссылка на использованную литературу оформлена не по ГОСТ.
> Ссылка на использованную литературу оформлена не по ГОСТНе указан номер ГОСТа.
Хм, не знал про пробелы в инициалах. Опеннет таки полезен!
Идите вы со своими ёлочками в Винду.
Осиль типографские символы на 3 уровне и будет тебе счастье.
Я в LibreOffice указал при нажатии клавиши с кавычками вставлять символ """. У меня и так счастье.
Зачем? У нас есть клавиша compose, немного тренировки, и кавычки набирать получается с первого раза. А в винде клавиши compose нет.
Обыграл и уничтожил
а правда ли что у Д.Э.Розенталя русский язык - не родной ?
неразрывнОй пробел...
>"Неплохой" пишется слитно.
>>2. Пишутся слитно с частицей не существительные, которые..."Неплохой" - существительное?
У проекта есть веб морда, можно загрузить тхт файл.
data2data[ru]
Я проверил кусок текста, довольно таки норм.
Под озвучки аудиокниг подойдёт, голос приятный, даже на бота не похож.
Только файло сгрузить нельзя, мыл подавай. Даже с предпроссмотра нельзя, только в браузере послушать - а скачать это нельзя. Даже с девтулсами - гемор, т.к. ogg в XHR приезжает, видимо base64-кодированый, аудиофайл из ЭТОГО вынуть - канительно.Интересно это специально так, персональные данные агрессивно собирают, или просто протупили с реализацией?
тупишь ты - мыло чисто опционально, ссылка готова для прямой скачки после
конверта, который у меня занял пару сек. Выбирай mp3 и не страдай хней.
><input value="" type="email" name="email" id="email" required="">
>чисто опциональноЧисто опционально, да.
>Даже с девтулсами - гемор, т.к. ogg в XHR приезжает, видимо base64-кодированый, аудиофайл из ЭТОГО вынуть - канительно.Не канительно, atob никто не отменял. Также как и new Blob и URL.createObjectURL .
Спасибо Ольге
нулинакс если что, это - gnu/linux
Alpine и OpenWRT не GNU.
Void musl никакой не гнутый.
"Нулинакс" - это ваще непонятно что.
Закинул для пробы рассказ Булычева. Все портит неумение читать русские слова с буквой Ё, которые по понятной причине везде пишут через Е. Я могу понять условно сложные случаи вроде все/всё, но есть же слова, которые не могут быть прочитаны неправильно! Например "все-таки", "еще" или "жилье". Понятно, что проблема решается скриптом за 1 минуту, который заменит в очевидных словах Е на Ё, но почему этого нет на той стороне?
попробуй написать скрипт, посмотрим. Как отличить всё и все?
И ещё поедем поедим?
Про поедем/поедим вообще не понял. Здесь ударение совершенно однозначное.
Ну со словом порты у иностранцев тоже всегда проблемы.
> портыНа быдлоязе принято произносить слово во множественном числе так, чтобы оно было в родительном падеже единственного числа: порта.
По контексту, естественно. Но я же говорю, что ладно условно сложные случаи, но совершенно однозначные можно же было бы через какой-нибудь препроцессор прогнать.
Надо было писать на Международном Фонетическом Алфавите (МФА). Тогда бы точно прочиталось. :)
Так ведь буква ё должна быть... Сколь бы наборщикам лениво не было.
«Жильё» вполне может быть и без «ё». «В съёмном жилье», например.
https://github.com/RHVoice/RHVoice/blob/master/config/dicts/...
Вместо примерчика из далекого 2013-го на десяток слов, там уже давно должен был бы быть нормальный проработанный набор правил.
>уже давно должен был бы бытьС какого, собственно, перепуга в русской речевой модели из коробки должен быть костыль для буквы Ё? Чем кормишь - то читается, а хочешь улучшить произношение под свой юзкейс - осваивай пользовательские словари или ssml.
Есть такое. Просто добавь словарь. Или найди текст с ё, или прогони ёфикатором.
Так о чем и речь. До того как использовать официальный портал, предназначенный для конвертации текста в аудио, этот самый текст еще нужно обработать напильником. Я могу понять, если бы я себе на комп это скачал и начал с настройками баловаться, но это ж вроде как готовое решение, которым, возможно, будут пользоваться и слепые люди.
>будут пользоваться и слепые люди.незрячие люди им и пользуются, но для взаимодействия с компьютером, а не для бенчмаркинга интонаций, натуральности чтения стихотворений и прочей ерунды. у русскоязычных пользователей под linux долгое время единственный готовым решением для работы вообще был только espeak, когда под windows хотя бы варез вроде digalo nikolai был. потому и незрячий разработчик и взялся за создание синтезатора, легко воспринимаемого на слух.
Такую штуку к японскому прикрутить бе, чтобы интонации отчеливыми были. У них язык роботный без ударений. Могло бы помочь изучающим, но мороки с разпознаванием чтений иероглифов будет море.
А в чём проблема распознать текст на любом языке? он же не с картинки распознаёт.
Гугл поддерживает 200 языков в переводчике, значит и этот сможет. Только тут фишка
в том что кто-то должен записать много разных слов и слогов для алгоритма.
Фишка в том, что озвучивание слов, звуковой состав которых одинаков, но, если в первом случае повышение тона на первый слог падает, то дальше может быть ровный слог, слог с понижением тональности, прямой слог с понижением тональности и тому подобное. Русские словари не содержат интонаций по большому счету. Есть дополнение с переводом на английский, но и там не совсем понятно в каких пределах звук меняется. А то так любой японец может троллить "непониманием", пока русские будут пытаться и так и сяк и попой об косяк сказать правильно. Знаешь же, что если кто-то дебила из себя корчит ему и ухо кулаком прочистить могут.
Я не совсем понял юз-кейс. Чтобы японец не притворялся что он не понимает?
В переводчике гугла есть та же самая фишка - озвучка текста перевода, просто голос мерзкий.
Работает на японском тоже, если перевод или исходный текст корректный.
На пару фраз сойдёт, но слушать длинную запись с таким "голосом" сильно ухо режет.Здесь вроде более по-человечески сделано, и подойдёт как TTS движок для слепых.
Еще, если такое совместить с хорошим движком OCR, чтобы распознавал текст с картинок,
в будущем можно будет нацепить "умные очки" с камерой и наушник слепому человеку, и
куда он не повернется будет звучать текст. Думаю лет через 20 будет такой гаджет.
Для изучения языка. Когда видишь иероглиф автоматически он не читается как набор звуков. Английская транскрипция ладно со огромным скрипом подойдет к японскому, но корейский имеет две буквы о, одна из коьорых скорее у, но для обозначения ы используется у. Англосаксы всем навязывают свой проклятый мертвый язык, даже если их буквы не подходят вообще, так что инглишетранскрипция для русских, которым она мало того что мешает, так она еще и неправильная.
То есть процесс увидел-понял с иероглифами не очень работает. И кстати в японском есть ё, ю, я. Ну а то, что し в японском это практически в чистом виде щи или си, в зависимости от степени картавости никак не стыкуется с английским shi. СХИ это станция железнодорожная так называется, ну и вишенка на торте, в словах с し и сокращается до уровня どうして доощтэ вместо вооситэ. Так что транскрипция вообще не вариант.
Когда латиницы перестаёт хватать, приходит на помощь диакритика. Так что язык тут вообще не при чём, было бы желание сделать нормальную транскрипцию. Možno i russkij tekst zapisyvatʹ bez problem.
В русском языке она используется только для И́, а в случае с Ё это вообщне необязательно. Такие точки есть в ряде языков европы чтобы аналог Ё налепить.
Но проблема латиницы куда глубже. С русской раскладкой можно создать раскладку японского, а с латиницей увы, только ромадзи с двойным количеством нажатий реализовано.
Японцы они упорные. Только от этого ральцы болят. Ну когда надо 760 нажатий сделать вместо 380 это очень сильно влияет. А их родная система, коьорая в Mozc обозначается как Kana на 25% медленнеее русской и требует до 22 зажатий клавиши Shift с не самым удобным нажатием в районе 890 букв よゆや ЁЮЯ, так что позволю себе не согласиться так как я такую систему ввода и создал.
Мне нравится は вместо わ, это чисто японская тема уже. Претензии к Хепберну не понял, у меня больше вопросов к Поливанову. Про silent letters вообще не понял, это равзе не вообще в любом языке так? В английском 2/3 слов с такими, причём часто они и произношение слов вообще не поддаются никакой логике (привет от древних диалектов). Вообще ни разу проблем не вызывало. Судя по тому, что я знаю о японском, их можно произносить, а можно спокойно проглатывать. А ещё можно ударение ставить вообще куда угодно. Проблема выдуманная, единственная сложность это заучивать китайские иероглифы. Ну и ёдзидзюкуго тож, их овермного.
Кому надуманная, а кому "попробуй догадаться было し или нет, а их в тексте может быть много.
А мне нравится は на месте Ы, し на Щ, す на С, которая в сочетании с Ё дает しょ а если нажать сёё получится しょう вместо варианта в ромадзи печатать syou. Так что 自己紹介 укладывается в 7 нажатий 6 клавишь без шифтов.
Нужно составить языковую модель, а для японского ещё и с тонами это не сделано. Пока поддерживаются только языки стран СНГ и несколько других. Можно написать авторам, но я не думаю они спешат этим заниматься. Для японского я не думаю что языковые модели подойдут к задаче по распознаванию иероглифов, потому что многие чтения зависят от контекста, а для этого нужен огромный словарь. Для распознавания достаточно же сделать преобразование кандзи -> хирагана, что для чтения уже будет достаточно, но его нельзя сделать без контекста, а значит языковыми моделями это не составить.
RHvoice хорош тем, что может работать на слабых автономных устройствах и не требует постоянного интернет-соединения как голос от гугла или яндекса.