模型档案信息
支持的设备端模型
tapWhisper 旨在完全离线且在设备本地运行,以提供极致的隐私和性能。探索我们引擎支持的所有模型。
macOS Apple Speech 引擎
Apple Speech 是 tapWhisper 的默认、零配置转录引擎。它使用 Apple 原生的 Speech 框架,100% 在设备本地运行。它的配置磨损几乎为零,系统内存占用极低,且针对 Apple Silicon (M1/M2/M3/M4) 及 Intel 芯片进行了深度原生优化。由于它直接调用 macOS 系统 API,因此不需要下载模型文件,开箱即用。
许可证: Apple platform terms (macOS system framework; no separate model download)
OpenAI Whisper GGML 模型
Whisper 是 OpenAI 研发的行业领先的通用语音识别模型。在 tapWhisper 中,Whisper 模型通过 whisper.
许可证: MIT
Useful Sensors Moonshine 模型
Moonshine 是一个经过高度优化、超低延迟的语音识别模型,专为资源受限的边缘设备上的实时听写而设计。它能在获得与 Whisper 模型相似准确率的同时,以更小的内存占用大幅提升音频处理速度。在 tapWhisper 中它通过 Sherpa ONNX 运行时在本地加载运行。
许可证: MIT model; Apache-2.0 Sherpa ONNX runtime
NVIDIA Parakeet ONNX 模型
NVIDIA 研发的 Parakeet 是一款针对英文经过高度优化的顶尖语音转文字模型。该模型量化为 INT8 ONNX 格式,通过 Sherpa ONNX 引擎在进程内本地运行。它为编程、商务和日常英文听写提供了极高的准确率和闪电般的响应速度。
许可证: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime
NVIDIA Canary ONNX 模型
NVIDIA 的 Canary 是一款先进的多语言语音转文字和翻译模型。它支持英语、西班牙语、德语和法语的语音识别,并可以在这些语言之间在设备端进行转录和翻译。它在 tapWhisper 中使用 Sherpa ONNX 本地高效运行。
许可证: CC BY 4.0 model; Apache-2.0 Sherpa ONNX runtime
Google Gemma 语音音频模型
Gemma Audio 是一个原生端到端的音频到文本模型。它直接处理原始音频波形并输出转录文本,不需要中间的语音转文字步骤。它通过一个常驻的、仅限本地 localhost 的 LiteRT-LM 服务运行。该模型常驻内存,以便在听写期间瞬间重用。
许可证: Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.
阿里 Qwen 3 格式化模型
Qwen 3 是一系列轻量化、高性能的语言模型(参数量从 0.
许可证: Apache-2.0 (Qwen 3 GGUF); Apple platform terms (built-in cleanup)