tapWhisper-এ ফিরে যান

মডেল প্রোফাইল

অন-ডিভাইস সমর্থিত মডেলসমূহ

tapWhisper সর্বোচ্চ প্রাইভেসী এবং পারফরম্যান্সের জন্য সম্পূর্ণ অফলাইন এবং অন-ডিভাইসে চলার জন্য ডিজাইন করা হয়েছে। সমর্থিত মডেলসমূহ দেখুন।

Apple Inc.
১ ভੇਰੀਐਂਟ

macOS-এ Apple Speech

Apple Speech হল tapWhisper-এর ডিফল্ট, জিরো-কনফিগারেশন ট্রান্সক্রিপশন ইঞ্জিন। এটি সম্পূর্ণ অফলাইনে Apple-এর নিজস্ব স্পিচ ফ্রেমওয়ার্ক ব্যবহার করে ডিভাইসে চলে। এটি খুব দ্রুত শুরু হয়, ন্যূনতম সিস্টেম র‍্যাম ব্যবহার করে এবং অ্যাপল সিলিকন (M1/M2/M3/M4) এবং ইন্টেল চিপের জন্য দারুণভাবে অপ্টিমাইজড। যেহেতু এটি সিস্টেম এপিআই ব্যবহার করে, তাই কোনো মডেল ফাইল ডাউনলোডের প্রয়োজন হয় না।

লাইসেন্স: Apple platform terms (macOS system framework; no separate model download)

মডেলের বৈশিষ্ট্য দেখুন →
OpenAI (মূল ওজন), GGML / whisper.cpp সম্প্রদায় (কোয়ান্টাইজড ফাইল)
১৬ ভেরিয়েন্ট

OpenAI Whisper GGML

Whisper হল OpenAI-এর একটি সর্বাধুনিক সাধারণ-উদ্দেশ্যমূলক ভয়েস রিকগনিশন মডেল। tapWhisper-এ, অ্যাপল সিলিকনে সম্পূর্ণ মেটাল জিপিইউ অ্যাক্সিলারেশন সহ whisper.

লাইসেন্স: MIT

মডেলের বৈশিষ্ট্য দেখুন →
Useful Sensors
২ ভেরিয়েন্ট

Useful Sensors Moonshine

Moonshine হল একটি অত্যন্ত অপ্টিমাইজড, কম ল্যাটেন্সি সম্পন্ন ভয়েস রিকগনিশন মডেল যা রিসোর্স-সীমাবদ্ধ ডিভাইসে রিয়েল-টাইম ডিক্টেশনের জন্য ডিজাইন করা হয়েছে। এটি হুইস্পার মডেলের মতো একই রকম নির্ভুলতা বজায় রেখে খুব কম মেমোরি ব্যবহারে দ্রুত অডিও প্রসেস করে। এটি Sherpa ONNX রানটাইমের মাধ্যমে tapWhisper-এ স্থানীয়ভাবে চলে।

লাইসেন্স: MIT model; Apache-2.0 Sherpa ONNX runtime

মডেলের বৈশিষ্ট্য দেখুন →
NVIDIA (NeMo টিম), Sherpa ONNX সম্প্রদায়
১ ভੇਰੀਐਂਟ

NVIDIA Parakeet ONNX

NVIDIA-এর Parakeet হল ইংরেজির জন্য অপ্টিমাইজ করা একটি আধুনিক স্পিচ-টু-টেক্সট মডেল। এটি Sherpa ONNX ইঞ্জিনের মাধ্যমে ডিভাইসে চালানোর জন্য INT8 ONNX ফরম্যাটে কোয়ান্টাইজড করা হয়েছে। এটি কোডিং, ব্যবসা এবং সাধারণ ইংরেজি ডিক্টেশনের জন্য অত্যন্ত নির্ভুলতা এবং দ্রুত গতি প্রদান করে।

লাইসেন্স: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime

মডেলের বৈশিষ্ট্য দেখুন →
NVIDIA (NeMo টিম), Sherpa ONNX সম্প্রদায়
১ ভੇਰੀਐਂਟ

NVIDIA Canary ONNX

NVIDIA-এর Canary হল একটি উন্নত বহুভাষিক স্পিচ-টু-টেক্সট এবং অনুবাদ মডেল। এটি ইংরেজি, স্প্যানিশ, জার্মান এবং ফরাসি ভাষা সমর্থন করে এবং অন-ডিভাইসে এই ভাষাগুলির মধ্যে ট্রান্সক্রিপশন ও অনুবাদ সম্পন্ন করতে পারে। এটি শেরপা ওএনএনএক্স ব্যবহার করে ডিভাইসে স্থানীয়ভাবে অত্যন্ত দক্ষতার সাথে চলে।

লাইসেন্স: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime

মডেলের বৈশিষ্ট্য দেখুন →
Google DeepMind
৩ ভেরিয়েন্ট

Google Gemma অডিও মডেল

Gemma Audio হল একটি নেটিভ এন্ড-টু-এন্ড অডিও-টু-টেক্সট মডেল। এটি সরাসরি অডিও ওয়েভফর্ম প্রসেস করে ট্রান্সক্রিপশন তৈরি করে, মাঝখানে আলাদা কোনো কনভার্সন ছাড়া। এটি একটি লোকালহোস্ট-অনলি লাইটআরটি-এলএম সার্ভারের মাধ্যমে চলে। ডিক্টেশন সেশনের সময় তাত্ক্ষণিক ব্যবহারের জন্য মডেলটি র‍্যামে লোড থাকে।

লাইসেন্স: Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

মডেলের বৈশিষ্ট্য দেখুন →
Alibaba Group / llama.cpp সম্প্রদায়
৪ ভেরিয়েন্ট

Alibaba Qwen 3 ফরম্যাটার

Qwen 3 হল GGUF ফরম্যাটে হালকা ও উচ্চ-ক্ষমতাসম্পন্ন ভাষার মডেলগুলির (০.

লাইসেন্স: Apache-2.0 (Qwen 3 GGUF); Apple platform terms (built-in cleanup)

মডেলের বৈশিষ্ট্য দেখুন →