Профиль: Аноним (вход | регистрация) неRU opennet.me  
The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Компания Canonical представила систему распознавания речи Myna

17.06.2026 17:49 (MSK)

Жан-Батист Лальман (Jean Baptiste Lallement), директор по инжинирингу в компании Canonical, представил проект Myna, развивающий приложение распознавания речи, которое намерены использовать для организации голосового ввода и распознавания команд на естественном языке в Ubuntu Desktop. Проект распространяется под лицензией GPLv3, но в репозитории пока присутствуют только наброски с описанием модульной архитектуры проекта и его интеграции с Ubuntu.

К выпуску Ubuntu 26.10 приложение планируют довести до пригодности к голосовому вводу текста. Сеанс работы с приложением сводится к активации через клавиатурную комбинацию, диктовки вслух и вставки распознанного текста в текущее приложение через симуляцию клавиатурного ввода по мере его произнесения. Во время включения микрофона в панели будет показываться специальный индикатор. В качестве базового тестируемого окружения заявлен GNOME на базе Wayland, но приложение изначально проектируется с расчётом возможности адаптации для различных сред рабочего стола.

Для распознавания в Myna будет задействована AI-модель, выполняемая локально. Среди требований к приложению: возможность работы без подключения к интернету; включение микрофона только после явной активации режима диктовки горячей клавишей; обработка звука в памяти, очищаемой после каждого использования; запрет на передачу записей звука во внешние сервисы.

Компоненты для распознавания речи, взаимодействия с пользователем, управления диктовкой и подстановки текста развиваются в форме модулей. Окружение для выполнения AI-моделей будет оформлено в виде snap-пакета. В качестве возможных моделей для распознавания упоминаются Wisper, Parakeet, NemoTron и Qwen3-ASR. Сервис управления диктовкой отслеживает нажатие горячей клавиши, активирует микрофон, обращается через API к AI-модели в snap-пакете, перенаправляет в неё звуковой поток из звукового сервиса и координирует потоки данных.

Звуковой сервис обращается к звуковому устройству, как напрямую, так и через звуковые серверы PulseAudio или PipeWire, подавляет шум и выравнивает громкость. Генерируемый моделью текст передаётся в модуль постобработки для чистки, нормализации, форматирования и расстановки знаков препинания. Финальный текст подставляется в приложение через подстановку ввода, например, через Wayland-протокол input-method или IBus.

После стабилизации начальной функциональности не исключается реализация таких возможностей, как работа в роли голосового ассистента, выполнение голосовых команд, голосовое управление рабочим столом и перевод диктуемого текста с автоматическим распознаванием языка.



  1. Главная ссылка к новости (`https://discourse.ubuntu.com/...)
  2. OpenNews: Планы развития Ubuntu Desktop 26.10
  3. OpenNews: Новые модели для распознавания русской речи в библиотеке Vosk
  4. OpenNews: Открыт код системы распознавания и перевода речи Whisper
  5. OpenNews: Mozilla свернула проект DeepSpeech, развивавший движок распознавания речи
  6. OpenNews: В Ubuntu намечена интеграция AI
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/65709-myna
Ключевые слова: myna, speech, voce
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (14) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Мемоним (?), 18:01, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Мупа?
     

  • 1.2, Аноним (2), 18:03, 17/06/2026 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.3, aname (ok), 18:07, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Пупа и Лупа
     

  • 1.4, aname (ok), 18:11, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Ещё нехватало с терминалом разговаривать
     
  • 1.5, Аноним (5), 18:12, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Зачем? Всякие вейланды и ибасы, а как оно поймет что там в окне происходит, картинку будет распознавать?

    Кому надо агента установят, который все сделает в терминале, для ИИ это нативная среда.

     
  • 1.6, Аноним (6), 18:46, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    проснулись... есть Handy, Vocalinux, Murmure, Whispering, плюс куча форков первого с массой функций.
     
  • 1.8, Аноним (8), 18:59, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    В каком приложении делаются блок-схемы в таком стиле, как на картинках?
     

  • 1.9, Аноним (9), 18:59, 17/06/2026 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.12, EasyEffect (?), 19:08, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Че расскажу ребзя, круче разговора с терминалом только попытка понять, что же тебе робо-баба говорит.
    Как воспроизвести ставишь в предустановки EasyEffect эффекты какие тебе нравяцо, басы там поднять, долби самопальный накрутить с эхом, наслаждаешься сочным звуком, потом прописываешь это в автозагрузку. А файл с предустановками удаляешь, и всё. После перезагрузки изи не находит предустановку и робо баба тебе талдычит что-то непонятное еле понятное слеш ю эс ар слеш локал слеш, потом сбивается и начинает заново рассказывать чего же её не хватает и опять рассказывает полный путь аааааа, пока до меня дошло что она хочет, думал уже линукс вей не для меня, снести и переставить как винду, ой вей.
     
  • 1.14, Анлним (?), 19:13, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Эм, прослойка, которая отправляет голос в проприетарные апишки предоставляется как что-то стоящее? Это даже новости не заслуживает
     
  • 1.15, Аноним (15), 19:16, 17/06/2026 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Норм для сервака с консолью. Самое оно. Нужное!
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2026 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру