العودة إلى tapWhisper
ملف تعريف النموذج

Google Gemma Audio

3 إصدارات

المواصفات الفنية

الحجم 4 جيجابايت إلى 12 جيجابايت
البنية نموذج لغوي متعدد الوسائط
زمن الانتقال منخفض (من البداية للنهاية)
اللغة متعدد اللغات

المطور / المنشئ

Google DeepMind

الترخيص

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

مصدر التحميل

Source Repository

Hugging Face Hub / سجل نماذج Google

litert-community Gemma 4 & Gemma 3n Mirror

نظرة عامة على النموذج

Gemma Audio هو نموذج صوت إلى نص أصلي من البداية إلى النهاية. يعالج موجات الصوت الخام مباشرة ويصدر نص النسخ دون خطوة وسيطة. يعمل عبر خادم LiteRT-LM محلي دائم (localhost). يظل النموذج مقيماً في الذاكرة لإعادة الاستخدام الفوري.

إصدارات النموذج المتاحة

اسم النموذج حجم الملف ذاكرة الوصول العشوائي الصيغة/التكميم اللغات الوصف
Gemma 3n 3.41 GB 3.8 GB INT4 (LiteRT) متعدد اللغات شروط استخدام Gemma؛ تحويل LiteRT-LM المجتمعي القابل للتنزيل علنًا.
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) متعدد اللغات نموذج Google Gemma 4 الصوتي LiteRT-LM. نموذج فعال للغاية من البداية إلى النهاية.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) متعدد اللغات نموذج Google Gemma 4 الصوتي ذو سعة أعلى. تحليل لغوي متقدم.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) متعدد اللغات نموذج Google Gemma 4 الصوتي الكبير للحصول على أقصى دقة. يتطلب ذاكرة وصول عشوائي عالية.