मॉडल प्रोफ़ाइल

समर्थित ऑन-डिवाइस मॉडल

tapWhisper को अधिकतम गोपनीयता और प्रदर्शन के लिए पूरी तरह से ऑफ़लाइन and ऑन-डिवाइस चलाने के लिए डिज़ाइन किया गया है। हमारे इंजन द्वारा समर्थित मॉडल देखें।

Apple Inc.

1 संस्करण

macOS पर Apple Speech

Apple Speech, tapWhisper में डिफ़ॉल्ट, शून्य-कॉन्फ़िगरेशन ट्रांसक्रिप्शन इंजन है। यह Apple के मूल Speech फ्रेमवर्क का उपयोग करके पूरी तरह से डिवाइस पर चलता है। यह लगभग शून्य सेटअप समय प्रदान करता है, न्यूनतम सिस्टम रैम का उपयोग करता है, और Apple Silicon (M1/M2/M3/M4) और Intel चिप्स के लिए अत्यधिक अनुकूलित है। चूंकि यह macOS सिस्टम एपीआई का उपयोग करता है, इसलिए इसे मॉडल फाइलों को डाउनलोड करने की आवश्यकता नहीं होती है और यह तुरंत तैयार हो जाता है।

लाइसेंस: Apple platform terms (macOS system framework; no separate model download)

मॉडल विवरण देखें →

OpenAI (मूल वेट्स), GGML / whisper.cpp समुदाय (क्वांटाइज़्ड फ़ाइलें)

16 संस्करण

OpenAI Whisper GGML

Whisper, OpenAI का अत्याधुनिक सामान्य-उद्देश्यीय भाषण पहचान मॉडल है। tapWhisper में, Whisper मॉडल Apple Silicon पर पूर्ण मेटल GPU त्वरण के साथ whisper.

लाइसेंस: MIT

मॉडल विवरण देखें →

Useful Sensors

2 संस्करण

Useful Sensors Moonshine

Moonshine एक अत्यधिक अनुकूलित, कम-विलंबता वाला भाषण पहचान मॉडल है जिसे सीमित संसाधनों वाले उपकरणों पर वास्तविक समय के डिक्टेशन के लिए डिज़ाइन किया गया है। यह छोटे मेमोरी पदचिह्न के साथ काफी तेज़ी से ऑडियो संसाधित करते हुए Whisper मॉडल के समान सटीकता प्राप्त करता है। यह Sherpa ONNX रनटाइम के माध्यम से tapWhisper में स्थानीय रूप से चलता है।

लाइसेंस: MIT model; Apache-2.0 Sherpa ONNX runtime

मॉडल विवरण देखें →

NVIDIA (NeMo टीम), Sherpa ONNX समुदाय

1 संस्करण

NVIDIA Parakeet ONNX

NVIDIA का Parakeet अंग्रेजी के लिए अनुकूलित एक अत्याधुनिक स्पीच-टू-टेक्स्ट मॉडल है। यह Sherpa ONNX इंजन के माध्यम से इन-प्रोसेस चलाने के लिए INT8 ONNX प्रारूप में क्वांटाइज़्ड है। यह कोडिंग, व्यवसाय और सामान्य अंग्रेजी डिक्टेशन के लिए अत्यधिक उच्च सटीकता और बिजली जैसी तेज़ गति प्रदान करता है।

लाइसेंस: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime

मॉडल विवरण देखें →

NVIDIA (NeMo टीम), Sherpa ONNX समुदाय

1 संस्करण

NVIDIA Canary ONNX

NVIDIA का Canary एक उन्नत बहुभाषी स्पीच-टू-टेक्स्ट और अनुवाद मॉडल है। यह अंग्रेजी, स्पेनिश, जर्मन और फ्रांसीसी भाषण पहचान का समर्थन करता है, और डिवाइस पर इन भाषाओं के बीच ट्रांसक्राइब और अनुवाद कर सकता है। यह अत्यधिक दक्षता के साथ Sherpa ONNX का उपयोग करके tapWhisper में स्थानीय रूप से चलता है।

लाइसेंस: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime

मॉडल विवरण देखें →

Google DeepMind

3 संस्करण

Google Gemma ऑडियो मॉडल

Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।

लाइसेंस: Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

मॉडल विवरण देखें →

Alibaba Group / llama.cpp समुदाय

4 संस्करण

Alibaba Qwen 3 फ़ॉर्मेटर

Qwen 3 स्थानीय टेक्स्ट फ़ॉर्मेटिंग के लिए उपयोग किए जाने वाले GGUF प्रारूप में हल्के, उच्च-प्रदर्शन भाषा मॉडल (0.

लाइसेंस: Apache-2.0 (Qwen 3 GGUF); Apple platform terms (built-in cleanup)

मॉडल विवरण देखें →