tapWhisper पर वापस जाएँ
मॉडल प्रोफ़ाइल

Google Gemma ऑडियो मॉडल

3 संस्करण

तकनीकी विवरण

आकार 4 GB से 12 GB
आर्किटेक्चर मल्टी-मोडल एलएलएम
लेटेंसी कम (एंड-टू-एंड)
भाषा बहुभाषी

डेवलपर / निर्माता

Google DeepMind

लाइसेंस

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

डाउनलोड स्रोत

सत्यापित स्रोत रिपॉजिटरी

Hugging Face हब / गूगल मॉडल रजिस्ट्री

litert-community Gemma 4 & Gemma 3n Mirror

मॉडल अवलोकन

Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।

उपलब्ध मॉडल संस्करण

मॉडल संस्करण फ़ाइल का आकार रैम उपयोग प्रारूप/क्वांट भाषाएँ विवरण
Gemma 3n 3.41 GB 3.8 GB INT4 (LiteRT) बहुभाषी जेम्मा उपयोग की शर्तें; सार्वजनिक रूप से डाउनलोड करने योग्य सामुदायिक LiteRT-LM रूपांतरण।
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) बहुभाषी गूगल जेम्मा 4 ऑडियो-सक्षम लाइटआरटी-एलएम मॉडल। अत्यधिक कुशल एंड-ตู-एंड मॉडल।
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) बहुभाषी उच्च क्षमता वाला गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उन्नत भाषा पार्सिंग।
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) बहुभाषी सर्वोत्तम सटीकता के लिए बड़ा गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उच्च रैम की आवश्यकता।