মডেল প্রোফাইল
অন-ডিভাইস সমর্থিত মডেলসমূহ
tapWhisper সর্বোচ্চ প্রাইভেসী এবং পারফরম্যান্সের জন্য সম্পূর্ণ অফলাইন এবং অন-ডিভাইসে চলার জন্য ডিজাইন করা হয়েছে। সমর্থিত মডেলসমূহ দেখুন।
macOS-এ Apple Speech
Apple Speech হল tapWhisper-এর ডিফল্ট, জিরো-কনফিগারেশন ট্রান্সক্রিপশন ইঞ্জিন। এটি সম্পূর্ণ অফলাইনে Apple-এর নিজস্ব স্পিচ ফ্রেমওয়ার্ক ব্যবহার করে ডিভাইসে চলে। এটি খুব দ্রুত শুরু হয়, ন্যূনতম সিস্টেম র্যাম ব্যবহার করে এবং অ্যাপল সিলিকন (M1/M2/M3/M4) এবং ইন্টেল চিপের জন্য দারুণভাবে অপ্টিমাইজড। যেহেতু এটি সিস্টেম এপিআই ব্যবহার করে, তাই কোনো মডেল ফাইল ডাউনলোডের প্রয়োজন হয় না।
লাইসেন্স: Apple platform terms (macOS system framework; no separate model download)
OpenAI Whisper GGML
Whisper হল OpenAI-এর একটি সর্বাধুনিক সাধারণ-উদ্দেশ্যমূলক ভয়েস রিকগনিশন মডেল। tapWhisper-এ, অ্যাপল সিলিকনে সম্পূর্ণ মেটাল জিপিইউ অ্যাক্সিলারেশন সহ whisper.
লাইসেন্স: MIT
Useful Sensors Moonshine
Moonshine হল একটি অত্যন্ত অপ্টিমাইজড, কম ল্যাটেন্সি সম্পন্ন ভয়েস রিকগনিশন মডেল যা রিসোর্স-সীমাবদ্ধ ডিভাইসে রিয়েল-টাইম ডিক্টেশনের জন্য ডিজাইন করা হয়েছে। এটি হুইস্পার মডেলের মতো একই রকম নির্ভুলতা বজায় রেখে খুব কম মেমোরি ব্যবহারে দ্রুত অডিও প্রসেস করে। এটি Sherpa ONNX রানটাইমের মাধ্যমে tapWhisper-এ স্থানীয়ভাবে চলে।
লাইসেন্স: MIT model; Apache-2.0 Sherpa ONNX runtime
NVIDIA Parakeet ONNX
NVIDIA-এর Parakeet হল ইংরেজির জন্য অপ্টিমাইজ করা একটি আধুনিক স্পিচ-টু-টেক্সট মডেল। এটি Sherpa ONNX ইঞ্জিনের মাধ্যমে ডিভাইসে চালানোর জন্য INT8 ONNX ফরম্যাটে কোয়ান্টাইজড করা হয়েছে। এটি কোডিং, ব্যবসা এবং সাধারণ ইংরেজি ডিক্টেশনের জন্য অত্যন্ত নির্ভুলতা এবং দ্রুত গতি প্রদান করে।
লাইসেন্স: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime
NVIDIA Canary ONNX
NVIDIA-এর Canary হল একটি উন্নত বহুভাষিক স্পিচ-টু-টেক্সট এবং অনুবাদ মডেল। এটি ইংরেজি, স্প্যানিশ, জার্মান এবং ফরাসি ভাষা সমর্থন করে এবং অন-ডিভাইসে এই ভাষাগুলির মধ্যে ট্রান্সক্রিপশন ও অনুবাদ সম্পন্ন করতে পারে। এটি শেরপা ওএনএনএক্স ব্যবহার করে ডিভাইসে স্থানীয়ভাবে অত্যন্ত দক্ষতার সাথে চলে।
লাইসেন্স: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime
Google Gemma অডিও মডেল
Gemma Audio হল একটি নেটিভ এন্ড-টু-এন্ড অডিও-টু-টেক্সট মডেল। এটি সরাসরি অডিও ওয়েভফর্ম প্রসেস করে ট্রান্সক্রিপশন তৈরি করে, মাঝখানে আলাদা কোনো কনভার্সন ছাড়া। এটি একটি লোকালহোস্ট-অনলি লাইটআরটি-এলএম সার্ভারের মাধ্যমে চলে। ডিক্টেশন সেশনের সময় তাত্ক্ষণিক ব্যবহারের জন্য মডেলটি র্যামে লোড থাকে।
লাইসেন্স: Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.
Alibaba Qwen 3 ফরম্যাটার
Qwen 3 হল GGUF ফরম্যাটে হালকা ও উচ্চ-ক্ষমতাসম্পন্ন ভাষার মডেলগুলির (০.
লাইসেন্স: Apache-2.0 (Qwen 3 GGUF); Apple platform terms (built-in cleanup)