Назад к tapWhisper
Профиль модели

Google Gemma Audio

3 варианта

Технические характеристики

Размер от 4 ГБ до 12 ГБ
Архитектура Мультимодальная LLM
Задержка Низкая (сквозная)
Язык Мультиязычный

Разработчик / Создатель

Google DeepMind

Лицензия

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

Источник загрузки

Source Repository

Hugging Face Hub / Реестр моделей Google

litert-community Gemma 4 & Gemma 3n Mirror

Обзор модели

Gemma Audio — это нативная модель преобразования звука в текст. Она напрямую обрабатывает аудиосигналы и создает готовый текст без промежуточных шагов. Работает через фоновый локальный сервер LiteRT-LM (localhost). Модель остается в оперативной памяти для мгновенного повторного использования во время сеансов диктовки.

Доступные варианты моделей

Вариант модели Размер файла Использование ОЗУ Формат/Квант Языки Описание
Gemma 3n 3.41 GB 3.8 GB INT4 (LiteRT) Мультиязычный Условия использования Gemma; общедоступная версия LiteRT-LM от сообщества.
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) Мультиязычный Аудиомодель Google Gemma 4 LiteRT-LM. Высокоэффективная сквозная модель.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) Мультиязычный Google Gemma 4 повышенного объема. Улучшенный языковой анализ.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) Мультиязычный Крупная модель Google Gemma 4 для максимальной точности. Требует много ОЗУ.