Retour à tapWhisper
Profil du Modèle

Google Gemma Audio

3 variantes

Spécifications

Taille 4 Go à 12 Go
Architecture LLM Multimodal
Latence Basse (de bout en bout)
Langue Multilingue

Développeur / Créateur

Google DeepMind

Licence

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

Source de Téléchargement

Aperçu du Modèle

Gemma Audio est un modèle natif de bout en bout de l'audio au texte. Il traite directement les ondes audio brutes et génère le texte de transcription sans étape intermédiaire. Il fonctionne via un serveur local LiteRT-LM persistant (localhost). Le modèle reste en mémoire pour une réutilisation instantanée.

Variantes de Modèles Disponibles

Nom du Modèle Taille du Fichier Mémoire RAM Format/Quant Langues Description
Gemma 3n 3.41 GB 3.8 GB INT4 (LiteRT) Multilingue Conditions d'utilisation de Gemma ; conversion LiteRT-LM de la communauté téléchargeable publiquement.
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) Multilingue Modèle Google Gemma 4 audio LiteRT-LM. Modèle de bout en bout hautement efficace.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) Multilingue Modèle Google Gemma 4 audio de plus grande capacité. Analyse linguistique avancée.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) Multilingue Grand modèle Google Gemma 4 audio pour une fidélité ultime. Nécessite beaucoup de RAM.