Компания Google представила аудиокодек Lyra V2, использующий методы машинного обучения для достижения максимального качества передачи речи при использовании очень медленных каналов связи. Новая версия отличается переходом на новую архитектуру нейронной сети, поддержкой дополнительных платформ, расширенными возможностями управления битрейтом, повышением производительности и достижением более высокого качества звука. Эталонная реализация кода написана на C++ и распространяется под лицензией Apache 2.0...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=57852
Сжимать будет так же, как и с Google Photo было?
Очень похоже что там гугол не столько сжимал, сколько целенаправленно портил чтобы сподвигнуть всех засидевшихся свалить-таки да побыстрееСледующим «багом» сжатия было бы просто исчезновение жирнющих фоток
Кто на платном - всё отлично. Так что общий посыл от гугла - очевиден был...
> Кто на платном - всё отлично. Так что общий посыл от гугла
> - очевиден был...Гугл дофига сервисов позакрывал вообще не интересуясь платные там кастомери или какие. Просто поставили всех перед фактом. Это для них не основной бизнес.
А конкретно сабж сделан максимально уродски. Некая жуткая плюсота, билдсистема которой только гугл пользуется и прочие характерные прелести, благодаря которым прикручивать ЭТО в свои программы жесть и ад, если вы не убежденный гуглер.
Как сделать из "фкю" "привет дорогой"? Достаточно пропустить через Lyra V2.
Знаем мы эти ваших гугл опубликовал..
100% работает через облако.
Вот тут проблема, что восстановить речь может некорректно на схожее слово, особенно при какой-нибудь особенности речи. Что может породить самые серьёзные проблемы.На том же Opus если человека будет неразборчиво слышно, то можно переспросить, а на Lyra V2 будет слышно разборчиво, но не то, что сказали.
Как обычно, общая беда нейронок: невозможно доказать корректность работы.
пишите письма
ты думаешь оно восстанавливает слова, а не звуковые волны?
> ты думаешь оно восстанавливает слова, а не звуковые волны?Там более высокий уровень абстракции, чем просто звуковая гармоника. Для восстановления волны нейронка не нужна. Нейронка восстанавливает типовые созвучия и запросто может подставить не то, что было.
> запросто может подставить не то, что было.Прямо как слишком умные копиры, которые в попытках улучшить качество картинки, "ненамеренно" меняют числа на другие: http://www.dkriesel.com/en/blog/2013/0802_xerox-workcentres_...
Алгоритм работы кодировщика сводится к извлечению параметров голосовых данных каждые 20 миллисекундсерьезно? много ты слов можешь сказать за 20 миллисекунд? это же какой тупой алгоритм должен быть, чтобы проигнорировать такой потом данных c такой частотой
т.е. он не может достроить лишнего в интервале большем 20 мс, он достраивает то что между этими интервалами
Не учитывая предыдущие значения невозможно строить предсказательные модели. Я конечно в код не глядел, но не верю в конвеер изолированных блоков по 20мс. Скорее всего один раз допустив ошибку хаос будет лишь нарастать.
Если нейронка исказит какой-нибудь звук (скажем, заменит s на th или наоборот), то, думаю, ничего страшного не произойдёт. Уверен, там кодирование на уровне отдельных звуков происходит, а не на уровне слов, Lyra - это всё-таки не система распознавания речи. Поэтому я бы не стал здесь пытаться делать из мухи слона. Не будет такого, что сказал "мама", а на другом конце услышали "дурак".
> Если нейронка исказит какой-нибудь звук (скажем, заменит s на th или наоборот),
> то, думаю, ничего страшного не произойдёт. Уверен, там кодирование на уровне
> отдельных звуков происходит, а не на уровне слов, Lyra - это
> всё-таки не система распознавания речи. Поэтому я бы не стал здесь
> пытаться делать из мухи слона. Не будет такого, что сказал "мама",
> а на другом конце услышали "дурак".to think и to sink — уже страшно перепутать
На самом деле в разных языках омонимов очень много (как строгих, так и не очень): 怖い vs 可愛い и т.п.
> to think и to sink — уже страшно перепутатьТакже годно перепутать friend и fiend.
Человеческие языки обладают большой избыточностью или говоря по другому энтропией Шеннона. В французском половина букв не читается, в японском по десятку чтений обозначающих разные вещи. Но люди же не путают омонимы. И если ты услышишь to sink не в том контексте, то минимум переспросишь, а максимум подумаешь что у человека что-то с головой. Если уж люди whole от hole отличают, то и тут это не проблема.
скан каждые 20 мсчтобы произнести такой звук нужно не менее четверти секунды
т.е. на каждый звук не менее 10 точных сканов
Будет по классике:
- ты мне, тварь, всю жизнь испортила!
- что?!!
- я говорю - соль передай, пожалуйста
Как говорится, на Бога(случайность) надейся, а сам не плошай.
Открытость не имеет никакой ценности, ценность имеет только копилефт.
Имеет, конечно, ценность. Хотя бы, чтобы была возможность провести аудит кода. Но по шкале ценностей она меньше, чем у копилефт.
По модулю. Ценность копилефта - отрицательная.
Модуль по определению число положительное. Матан прогуливал.
Модуль числа - это 8 класс. Это не матан. Он прогуливал школу.
Вы, я вижу, уроки чтения в начальной школе прогуливали, раз читать не умеете. Модуль ценности копилефта больше, но вот только ценность копилефта отрицательная...
> провести аудит кодааудит данных заложенной нейросетки не проведёшь.
Проще и надежнее передавать текст. Вот как я сейчас. Приём.
Казнить нельзя помиловать. Ждем нейросеть чтобы правильно расставила знаки.
Оскорбляешь собеседника и валишь всё на нейросеть. Звучит как план.
Описан Брюсом Стерлингом в "Схизматрице" в 1985. Возможно, есть более ранние примеры, но этот я точно помню. Если с освоением космоса фантастика попала пальцем в небо, то киберпанк из 80-х мы, похоже, реализуем планомерно и последовательно.
Вот ранее были какие-то мелкие компании. Инновации были от новых компаний. От стартапов. Читаешь и радуешься за англо-саксов.А счас что? Есть вот этот разжиревший монстр, с миллиардами капиталов, принадлежащий милиардерам глобалистам, и он пожирает в себя, заглатывает, все или очень многие инновации (покупая их). Противная ситуация. Неприятная. Не радует когда что-то новое "изобрели" или сделали, кодек речевой не нейронке или там сервис карт... Противно. Все равно все этому чудовищу принадлежит. Ну там сервисом больше стало, или сервисом меньше у этого чудовища. Это уже пофик. Не радует!!
Вам завидно что что-то кому-то принадлежит? Боитесь упустить контроль? Бедняжка.
Расскажи это тем, кто в Стадию поверил, например.
И что с ними случилось? Получили свои прорейченные копейки обратно и пошли мороженое есть?
> И что с ними случилось?Остались без очередного сервиса i++'й раз, резко и внезапно - в стиле гугла.
Гугл не дед мороз, гугл не обещал вечный сервис.То, что вы платите деньги корпорациям и не читаете за что платите - это ваша личная проблема, а не корпораций.
А от осознания того, что вас кормят и поят продукцией компаний «с миллиардами капиталов» у вас аппетит не пропадает? Уже не первую сотню лет уровню научно-технического развития соответствует форма крупного производства, господство мелких производителей и стартапов характерно лишь на низжей ступени развития. Для организации и расширения производства и исследований, в массе своей, нужны всё болшие средства, что не может не сопровождаться централизацией и концентрацией капиталов, «пожиранием» мелких крупными. Сектор IT всего лишь проходит те же этапы в ускоренном темпе.
На бумаге оно гуд.
Хотелось бы посмотреть КПД в google duo на разных девайсах...
Энергопотребление, общая нагрузка, результат...
В BlabberIM.
Лучше бы кто нибудь придумал lossless конвертацию из одного lossy кодека в другой lossy кодек.То есть допустим есть некий исходный аудиофайл wav. Из него был сделан, допустим, mp3.
Такой кодек должен уметь из mp3 сделать такой opus файл, который получился бы при прямом кодировании из wav.
А вот зачем продолжают искать всё более эффективные способы сжатия речи, не очень понятно, когда opus позволяет по dial-up слушать не только речь, но и музыку в приемлимом качестве. Эх, этот кодек бы 20 лет назад хотя бы...
Ну это легко, самое простое. Для этого тебе придётся восстановить исходные потерянные данные и убрать все искажения кодека, а потом закодировать заново. Wavpack в lossy режиме позволяет генерировать файл восстанавливающий лосси до лосслесс.
> Wavpack в lossy режиме позволяет генерировать файл восстанавливающий лосси до лосслесс.Wavpack нет. Считай есть куча lossy аудио в устаревшем формате типа mp3, lossless версий которых не существует нигде.
> Ну это легко, самое простое. Для этого тебе придётся восстановить исходные потерянные данные и убрать все искажения кодека, а потом закодировать заново.Не обязательно восстанавливать исходные утерянные данные, да и это невозможно. Хотя бы не потерять ещё больше.
Вот есть у нас некий mp3, при декодировании которого мы получаем pcm1. Почему бы не сделать такой кодек, который из pcm1 делал бы в обратную сторону такой opus или vorbis, при декодировании которого получался бы тот же pcm1 бит в бит?
Не, ну ты понимаешь же, что каждый кодек чем-то жертвует при кодировании, и этот процесс необратимый. У mp3 кодеров и ещё у некоторых есть специальный режим, в котором они могут повторно перекодировать в файл с меньшим битрейтом, например. Только там зависит от того какой версией было сделано первоначальное кодирование, да и результат всё равно хуже чем получился бы из исходных данных. Вооот, а был бы лосслесс, такой проблемы бы не возникло. Хотя остаётся вопрос качества записи, да и вон многие исполнители на компакт кассете (не цифровой, да) мастер запись альбома имели, или что-нибудь в таком духе.
Воссоздание картавости в массы!
Давно пора.
> позволяющая воссоздать недостающую информацию на основе типовых характеристик речи"Вы что - и есть за меня будете?"(С)
Они придумали вокодер . Гениально Марти!
Раньше это называлось "текст-ту-спич"
>предусмотрены квантователи для трёх битрейтов (3.2 kps, 6 kbps и 9.2 kbps)Вот зачем это со современными скоростями в современном интернете? Они там вообще в курсе, что на дворе не 2000-й год?
Сейчас звук во флаке можно спокойно гонять, а не дорисовывать на компухтере чего не было.
Ага и десктоп приложение запускать в браузере и выжирать по 2 гига оперы, а чо не 2000-й же год. Достали.
Ты когда-нибудь пробовал зайти на какой-то нетоповый сайт в маршрутке? У опсосов QoS отстроен так, что инстаграмчик у девочки слева и ютубчик у мальчика справа летают, и видосики в fullhd играют гладко и без лагов, а тебе, которому что-то надо посмотреть по делу - хрен без соли.
А поскольку основной профит у Гугла, Меты и прочих именно с таких юзеров - они непрерывно ищут способы, как бы побольше медиатрафика впихнуть в существующие каналы.
> в маршрутке
> надо посмотреть по делуОх уж эти деловые в маршрутках. Сотни миллионов в секунду теряешь, пока не посмотришь? Не смеши. Тебе просто завидно, что нормальные люди имеют нормальный сервис, а твой унылый форум на три человека ложится, когда на него заходит четвёрный.
Смузя вооон там, не поперхнись.
Ты разницу между QoS провайдера и производительностью сервера понимаешь? И где я сказал, что "мой форум" ложится от перегрузки?
Вы отойдите от города на несколько километров и насладитесь «современным интернетом». Если вообще поймаете.
Неоднократно наслаждался видеозвонками с родителями через LTE сидя на берегу океана. До ближайшего населенного пункта ~50км. Никаких следов человеческого присутствия кроме шоссе и вышки в ~10 км. Даже тропинок нет. Попробуйте пожить в цивилизованной стране что ли.
Я бы с радостью. Но пока имеем то, что имеем.
А посреди океана с круизного лайнера не пробовали? Что лучше, платить по 10 Евро за минуту голосовой связи или за те же 10 Евро в день получить возможность говорить хоть беспрерывно круглосуточно по такому цифровому каналу?
А ты сходи в южную часть Битцевского лесокарка. Вроде бы внутримкадье, да поди ж ты - совсем ничего не ловит.
Понимаете ли, но наша планета несколько больше, чем цивилизованные области покрытые LTE. Это не говоря о космическом пространстве. Если более простым языком, то по цифровому каналу через ПВ/КВ судовую радиостанцию даже сотни килобит не получишь.
Зачем оно нужно, когда есть mp3
сначала задайся, кому нужны каналы 3 кбита/с...
В своё время сидел на диалапе 9,6 кбит/с, хватало с головой.
готовятся к возвращению в каменный век?
Iridium до сих пор 9600. И что-то лучшей альтернативы для спутниковых телефонов я пока не видел. Терминал StarLink в карман не положишь.
Классический Иридиум, через телефон максимально 2400б/с, т.е. Лира отдыхает.
Нужен Openport со стационарной установкой (на судне) около 130кб/с, но там и стоимость другая.
Некст уже должен через телефон выдавать 9,6-64кб/с, телефонов пока в продаже нет даже в US.
> модель обучена с использованием нескольких тысяч часов с записями голосов на более чем 90 языкахТы смотри-ка, прямо как человек - что привык слышать, то и слышит.
> нескольких тысяч часов с записями голосов на более чем 90 языкахС их разрешения?
берёшь трубку - а там голос Бидона :)
Конечно. Нажали "Согласен", не читая. Как будто ты не знаешь, как такие дела делаются.
декларация: "в 5Г у вас скорость будет 1 Гбит/с"
реальность: "мы тут кодек на 3 кбита/с сваяли..."
5G не будет охватывать 100% земной поверхности. Вроде, простая мысль, а поди ж ты, некоторым разжёвывать надо.
Зачем охватывать территорию, где 1 человек на квадратный километр?
> не будет охватывать 100% земной поверхностидекларация Илона: "скоростной спутниковый интернет будет доступен обычному смартфону".
P.S. декларация от старлинка: 75 Мбит/с на каждого в среднем.
по сравнению с моими 8-20 Мбит/с на адсл, очень даже неплохо
Вы как-то странно расуждаете по моим наблюдениям выше 30Мбит с европы не получить в один поток. По разному, ниже видел, а выше не припомню.
Может 30-40, но вроде до 30.
Это как с пингом: 1-3мс можно плучить но это будет соседний дом или внутри города. Я внутри города получаю пинг 3 мс еденицу не разу не видел. Интернет провод без wi-fi.
Уплочено за 50/50Мбит/c провод без wi-fi. Download не в один поток 49Мбит/c с чемто.
Download Mbps
38.59
Upload Mbps
1.71
Ping ms 40 79 45
Connections
Single
RETN
Frankfurt
Остальную полосу займёт подгрузка кодировщика/декодировщика на JS.
Интересно, насколько оно чувствительно к джиттеру, как будет работать поверх мобильного интернета EDGE, например
Вместо оригинального звука будет Николай напевать?
Можно в настройках выбирать озвучку. Да хоть Рамштайн!
Я в этом месте не понял.Голос лезет в 3.2kbps вообще без сжатия, нафига там Lyra, да ещё V2?
Кстати да, ещё же есть Codec 2
Сравните с новым аудиокодеком xHE-AAC плиз..