Ir al contenido

Especificaciones de Modelos

Especificaciones técnicas detalladas de los modelos de transcripción incluidos en FloWords.


FloWords incluye tres motores de transcripción locales. Todos se ejecutan completamente en tu Mac y son multilingües.

ModeloMotorDescargaRAMWERLatencia
Whisper Turbo (por defecto)OpenAI • Q5_0~547 MB~2 GB~7-8%~200-800 ms
Parakeet V3NVIDIA • INT8~640 MB~2 GB~6.34%~50-200 ms
Apple SpeechmacOS nativoNingunaMínima~8%~100-500 ms

Nombre: Whisper Turbo
Motor: OpenAI Whisper (Large v3 Turbo, Q5_0)
Backend: whisper.cpp (optimizado para Apple Silicon)
Descarga: ~547 MB
Uso de Memoria: ~2 GB
Precisión: ~7-8% WER
Latencia: ~200-800 ms
Idiomas: Multilingüe

Mejor para:

  • Uso diario general
  • Mejor balance entre precisión y velocidad
  • Motor recomendado por defecto

Nombre: Parakeet V3
Motor: NVIDIA Parakeet (vía FluidAudio)
Cuantización: INT8
Descarga: ~640 MB
Uso de Memoria: ~2 GB
Precisión: ~6.34% WER
Latencia: ~50-200 ms
Idiomas: Multilingüe (inglés + europeos)

Mejor para:

  • Dictado rápido y de baja latencia
  • Cuando la velocidad es prioridad
  • Buen rendimiento con recursos moderados

Nombre: Apple Speech
Motor: Voz nativa de macOS (SFSpeechRecognizer)
Descarga: Ninguna (incluido en macOS)
Procesamiento: En el dispositivo
Precisión: ~8% WER (menor que Whisper)
Latencia: ~100-500 ms
Idiomas: Multilingüe

Mejor para:

  • Borradores rápidos
  • Sin necesidad de descargar nada
  • Velocidad y privacidad sobre precisión

  • Whisper Turbo - multilingüe, soporta 99+ idiomas con detección automática
  • Parakeet V3 - inglés e idiomas europeos
  • Apple Speech - multilingüe (árabe, alemán, inglés, español, francés, italiano, japonés, coreano, portugués, chino, entre otros)

  • Aceleración por hardware para los tres modelos
  • ~2-3x más rápido que Intel
  • Mínimo impacto en batería
  • Los tres modelos funcionan genial
  • Más lento que Apple Silicon, mayor uso de CPU
  • Se recomienda Parakeet V3 o Apple Speech para mejor velocidad

EspecificaciónValor
Tasa de Muestreo16000 Hz
Profundidad de Bits16-bit
CanalesMono
FormatoPCM

FloWords convierte automáticamente el audio a estas especificaciones.

FormatoExtensiónNotas
WAV.wavSoporte nativo
MP3.mp3Convertido a WAV
M4A.m4aConvertido a WAV
AAC.aacConvertido a WAV
FLAC.flacConvertido a WAV
AIFF.aiffConvertido a WAV
CAF.cafConvertido a WAV
MP4.mp4Audio extraído
MOV.movAudio extraído

Caso de UsoModelo Recomendado
Uso diarioWhisper Turbo
Máxima velocidadParakeet V3
Sin descarga / borradores rápidosApple Speech
Máxima precisiónWhisper Turbo
SituaciónRecomendado
Habla claraCualquiera
Baja latenciaParakeet V3
Sin conexión, sin configurarApple Speech
Términos técnicosWhisper Turbo + diccionario