Компания Canonical представила систему распознавания речи Myna

17.06.2026 17:49 (MSK)

Жан-Батист Лальман (Jean Baptiste Lallement), директор по инжинирингу в компании Canonical, представил проект Myna, развивающий приложение распознавания речи, которое намерены использовать для организации голосового ввода и распознавания команд на естественном языке в Ubuntu Desktop. Проект распространяется под лицензией GPLv3, но в репозитории пока присутствуют только наброски с описанием модульной архитектуры проекта и его интеграции с Ubuntu.

К выпуску Ubuntu 26.10 приложение планируют довести до пригодности к голосовому вводу текста. Сеанс работы с приложением сводится к активации через клавиатурную комбинацию, диктовки вслух и вставки распознанного текста в текущее приложение через симуляцию клавиатурного ввода по мере его произнесения. Во время включения микрофона в панели будет показываться специальный индикатор. В качестве базового тестируемого окружения заявлен GNOME на базе Wayland, но приложение изначально проектируется с расчётом возможности адаптации для различных сред рабочего стола.

Для распознавания в Myna будет задействована AI-модель, выполняемая локально. Среди требований к приложению: возможность работы без подключения к интернету; включение микрофона только после явной активации режима диктовки горячей клавишей; обработка звука в памяти, очищаемой после каждого использования; запрет на передачу записей звука во внешние сервисы.

Компоненты для распознавания речи, взаимодействия с пользователем, управления диктовкой и подстановки текста развиваются в форме модулей. Окружение для выполнения AI-моделей будет оформлено в виде snap-пакета. В качестве возможных моделей для распознавания упоминаются Wisper, Parakeet, NemoTron и Qwen3-ASR. Сервис управления диктовкой отслеживает нажатие горячей клавиши, активирует микрофон, обращается через API к AI-модели в snap-пакете, перенаправляет в неё звуковой поток из звукового сервиса и координирует потоки данных.

Звуковой сервис обращается к звуковому устройству, как напрямую, так и через звуковые серверы PulseAudio или PipeWire, подавляет шум и выравнивает громкость. Генерируемый моделью текст передаётся в модуль постобработки для чистки, нормализации, форматирования и расстановки знаков препинания. Финальный текст подставляется в приложение через подстановку ввода, например, через Wayland-протокол input-method или IBus.

После стабилизации начальной функциональности не исключается реализация таких возможностей, как работа в роли голосового ассистента, выполнение голосовых команд, голосовое управление рабочим столом и перевод диктуемого текста с автоматическим распознаванием языка.

исправить +1 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/65709-myna

Ключевые слова: myna, speech, voce

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (14)

1.1, Мемоним (?), 18:01, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Мупа?

2.10, Аноним (10), 19:06, 17/06/2026 Скрыто ботом-модератором [к модератору]	+/–

1.2, Аноним (2), 18:03, 17/06/2026 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ] [к модератору]	+/–

1.3, aname (ok), 18:07, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Пупа и Лупа

2.11, Аноним (10), 19:07, 17/06/2026 Скрыто ботом-модератором [к модератору]	+/–

1.4, aname (ok), 18:11, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Ещё нехватало с терминалом разговаривать

1.5, Аноним (5), 18:12, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Зачем? Всякие вейланды и ибасы, а как оно поймет что там в окне происходит, картинку будет распознавать? Кому надо агента установят, который все сделает в терминале, для ИИ это нативная среда.

1.6, Аноним (6), 18:46, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+/–
проснулись... есть Handy, Vocalinux, Murmure, Whispering, плюс куча форков первого с массой функций.

1.8, Аноним (8), 18:59, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
В каком приложении делаются блок-схемы в таком стиле, как на картинках?

2.13, Аноним (10), 19:08, 17/06/2026 Скрыто ботом-модератором [к модератору]	+/–

1.9, Аноним (9), 18:59, 17/06/2026 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ] [к модератору]	+/–

1.12, EasyEffect (?), 19:08, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Че расскажу ребзя, круче разговора с терминалом только попытка понять, что же тебе робо-баба говорит. Как воспроизвести ставишь в предустановки EasyEffect эффекты какие тебе нравяцо, басы там поднять, долби самопальный накрутить с эхом, наслаждаешься сочным звуком, потом прописываешь это в автозагрузку. А файл с предустановками удаляешь, и всё. После перезагрузки изи не находит предустановку и робо баба тебе талдычит что-то непонятное еле понятное слеш ю эс ар слеш локал слеш, потом сбивается и начинает заново рассказывать чего же её не хватает и опять рассказывает полный путь аааааа, пока до меня дошло что она хочет, думал уже линукс вей не для меня, снести и переставить как винду, ой вей.

1.14, Анлним (?), 19:13, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Эм, прослойка, которая отправляет голос в проприетарные апишки предоставляется как что-то стоящее? Это даже новости не заслуживает

1.15, Аноним (15), 19:16, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Норм для сервака с консолью. Самое оно. Нужное!

игнорирование участников | лог модерирования

Добавить комментарий

Текст: