मॉडल प्रोफ़ाइल
समर्थित ऑन-डिवाइस मॉडल
tapWhisper को अधिकतम गोपनीयता और प्रदर्शन के लिए पूरी तरह से ऑफ़लाइन and ऑन-डिवाइस चलाने के लिए डिज़ाइन किया गया है। हमारे इंजन द्वारा समर्थित मॉडल देखें।
macOS पर Apple Speech
Apple Speech, tapWhisper में डिफ़ॉल्ट, शून्य-कॉन्फ़िगरेशन ट्रांसक्रिप्शन इंजन है। यह Apple के मूल Speech फ्रेमवर्क का उपयोग करके पूरी तरह से डिवाइस पर चलता है। यह लगभग शून्य सेटअप समय प्रदान करता है, न्यूनतम सिस्टम रैम का उपयोग करता है, और Apple Silicon (M1/M2/M3/M4) और Intel चिप्स के लिए अत्यधिक अनुकूलित है। चूंकि यह macOS सिस्टम एपीआई का उपयोग करता है, इसलिए इसे मॉडल फाइलों को डाउनलोड करने की आवश्यकता नहीं होती है और यह तुरंत तैयार हो जाता है।
लाइसेंस: Apple platform terms (macOS system framework; no separate model download)
OpenAI Whisper GGML
Whisper, OpenAI का अत्याधुनिक सामान्य-उद्देश्यीय भाषण पहचान मॉडल है। tapWhisper में, Whisper मॉडल Apple Silicon पर पूर्ण मेटल GPU त्वरण के साथ whisper.
लाइसेंस: MIT
Useful Sensors Moonshine
Moonshine एक अत्यधिक अनुकूलित, कम-विलंबता वाला भाषण पहचान मॉडल है जिसे सीमित संसाधनों वाले उपकरणों पर वास्तविक समय के डिक्टेशन के लिए डिज़ाइन किया गया है। यह छोटे मेमोरी पदचिह्न के साथ काफी तेज़ी से ऑडियो संसाधित करते हुए Whisper मॉडल के समान सटीकता प्राप्त करता है। यह Sherpa ONNX रनटाइम के माध्यम से tapWhisper में स्थानीय रूप से चलता है।
लाइसेंस: MIT model; Apache-2.0 Sherpa ONNX runtime
NVIDIA Parakeet ONNX
NVIDIA का Parakeet अंग्रेजी के लिए अनुकूलित एक अत्याधुनिक स्पीच-टू-टेक्स्ट मॉडल है। यह Sherpa ONNX इंजन के माध्यम से इन-प्रोसेस चलाने के लिए INT8 ONNX प्रारूप में क्वांटाइज़्ड है। यह कोडिंग, व्यवसाय और सामान्य अंग्रेजी डिक्टेशन के लिए अत्यधिक उच्च सटीकता और बिजली जैसी तेज़ गति प्रदान करता है।
लाइसेंस: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime
NVIDIA Canary ONNX
NVIDIA का Canary एक उन्नत बहुभाषी स्पीच-टू-टेक्स्ट और अनुवाद मॉडल है। यह अंग्रेजी, स्पेनिश, जर्मन और फ्रांसीसी भाषण पहचान का समर्थन करता है, और डिवाइस पर इन भाषाओं के बीच ट्रांसक्राइब और अनुवाद कर सकता है। यह अत्यधिक दक्षता के साथ Sherpa ONNX का उपयोग करके tapWhisper में स्थानीय रूप से चलता है।
लाइसेंस: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime
Google Gemma ऑडियो मॉडल
Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।
लाइसेंस: Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.
Alibaba Qwen 3 फ़ॉर्मेटर
Qwen 3 स्थानीय टेक्स्ट फ़ॉर्मेटिंग के लिए उपयोग किए जाने वाले GGUF प्रारूप में हल्के, उच्च-प्रदर्शन भाषा मॉडल (0.
लाइसेंस: Apache-2.0 (Qwen 3 GGUF); Apple platform terms (built-in cleanup)