Ir al contenido

Especificaciones de Modelos

Especificaciones técnicas detalladas para todos los modelos de transcripción compatibles con FloWords.


Whisper es el sistema de reconocimiento automático de voz (ASR) de OpenAI. FloWords usa whisper.cpp, una implementación optimizada en C++ para Apple Silicon.

ModeloParámetrosTamañoVRAMWER InglésFactor de Velocidad
Tiny39M75 MB~1 GB8.4%~32x
Tiny.en39M75 MB~1 GB7.5%~32x
Base74M142 MB~1.5 GB5.0%~16x
Base.en74M142 MB~1.5 GB4.3%~16x
Small244M466 MB~2 GB3.4%~6x
Small.en244M466 MB~2 GB3.0%~6x
Medium769M1.5 GB~5 GB2.5%~2x
Medium.en769M1.5 GB~5 GB2.1%~2x
Large-v31550M3 GB~10 GB2.0%~1x

Nombre: Whisper Tiny
Parámetros: 39 millones
Tamaño de Archivo: 75 MB
Uso de Memoria: ~1 GB
Capas: 4 codificador, 4 decodificador
Dimensión: 384
Cabezas: 6

Mejor para:

  • Notas rápidas
  • Sistemas de poca memoria
  • Transcripción más rápida

Compromisos:

  • Menor precisión
  • Puede tener problemas con acentos
  • Manejo limitado de ruido

Nombre: Whisper Base
Parámetros: 74 millones
Tamaño de Archivo: 142 MB
Uso de Memoria: ~1.5 GB
Capas: 6 codificador, 6 decodificador
Dimensión: 512
Cabezas: 8

Mejor para:

  • Uso diario general
  • Buen balance de velocidad y precisión
  • La mayoría de configuraciones Mac

Compromisos:

  • Precisión moderada
  • Algunos errores con términos técnicos

Nombre: Whisper Small
Parámetros: 244 millones
Tamaño de Archivo: 466 MB
Uso de Memoria: ~2 GB
Capas: 12 codificador, 12 decodificador
Dimensión: 768
Cabezas: 12

Mejor para:

  • Necesidades de mejor precisión
  • Trabajo profesional
  • Cuando velocidad no es crítica

Compromisos:

  • Más lento que Tiny/Base
  • Mayores requisitos de memoria

Nombre: Whisper Medium
Parámetros: 769 millones
Tamaño de Archivo: 1.5 GB
Uso de Memoria: ~5 GB
Capas: 24 codificador, 24 decodificador
Dimensión: 1024
Cabezas: 16

Mejor para:

  • Transcripción profesional
  • Condiciones de audio desafiantes
  • Habla con acento

Compromisos:

  • Uso significativo de memoria
  • Procesamiento más lento
  • Requiere 8GB+ RAM

Nombre: Whisper Large v3
Parámetros: 1550 millones
Tamaño de Archivo: 3 GB
Uso de Memoria: ~10 GB
Capas: 32 codificador, 32 decodificador
Dimensión: 1280
Cabezas: 20

Mejor para:

  • Máxima precisión
  • Audio difícil
  • Producción profesional

Compromisos:

  • Uso muy alto de memoria
  • Procesamiento más lento
  • Requiere 16GB+ RAM

Modelos que terminan en .en están optimizados solo para inglés:

ModeloMultilingüeSolo Inglés
Tinytinytiny.en
Basebasebase.en
Smallsmallsmall.en
Mediummediummedium.en
Largelarge-v3(Sin variante .en)
  • Procesamiento más rápido - Sin detección de idioma
  • Ligeramente mejor precisión - Optimizado para inglés
  • Menor uso de recursos - Vocabulario efectivo más pequeño

Modelos Parakeet de NVIDIA vía framework FluidAudio.

Nombre: Parakeet RNNT
Arquitectura: RNN-Transducer
Enfoque: ASR inglés en tiempo real
Latencia: Muy baja
Streaming:

Mejor para:

  • Transcripción en tiempo real
  • Dictado en vivo
  • Contenido en inglés
AspectoWhisperParakeet
Idiomas99+Enfoque inglés
PrecisiónMayorBuena
LatenciaMayorMenor
StreamingLimitadoNativo
MemoriaMayorMenor

ModeloRecomendadoRendimiento
Tiny✓ Excelente~30x tiempo real
Base✓ Excelente~15x tiempo real
Small✓ Bueno~5x tiempo real
Medium⚠️ Usable~2x tiempo real
Large⚠️ Lento~0.5x tiempo real
Modelo8GB RAM16GB RAM32GB+ RAM
Tiny✓ Bueno✓ Bueno✓ Bueno
Base✓ Usable✓ Bueno✓ Bueno
Small⚠️ Lento✓ Usable✓ Bueno
Medium❌ No recomendado⚠️ Lento✓ Usable
Large❌ No recomendado❌ No recomendado⚠️ Lento

Inglés, Español, Francés, Alemán, Italiano, Portugués, Holandés, Ruso, Japonés, Chino, Coreano

Árabe, Checo, Danés, Finlandés, Griego, Hebreo, Hindi, Húngaro, Indonesio, Noruego, Polaco, Rumano, Sueco, Tailandés, Turco, Ucraniano, Vietnamita

Todos los otros 70+ idiomas compatibles con Whisper


EspecificaciónValor
Tasa de Muestreo16000 Hz
Profundidad de Bits16-bit
CanalesMono
FormatoPCM

FloWords convierte automáticamente audio a estas especificaciones.

FormatoExtensiónNotas
WAV.wavSoporte nativo
MP3.mp3Convertido a WAV
M4A.m4aConvertido a WAV
AAC.aacConvertido a WAV
FLAC.flacConvertido a WAV
AIFF.aiffConvertido a WAV
CAF.cafConvertido a WAV
MP4.mp4Audio extraído
MOV.movAudio extraído

Caso de UsoModelo Recomendado
Notas rápidasTiny
Uso diarioBase
DocumentosSmall
ProfesionalMedium
Máxima precisiónLarge-v3
RAMModelo Máximo
4 GBBase
8 GBSmall
16 GBMedium
32 GB+Large-v3
ContenidoRecomendado
Habla claraCualquiera
Ruido de fondoMedium+
Términos técnicosMedium+ con diccionario
Múltiples hablantesMedium+
Habla con acentoMedium+

ParámetroRangoPredeterminadoEfecto
beam_size1-105Precisión vs velocidad
best_of1-51Candidatos considerados
temperature0.0-1.00.0Aleatoriedad de predicción
patience0.0-2.01.0Detención temprana
length_penalty0.0-2.01.0Sesgo de longitud
ObjetivoAjuste
Más rápidoMenor beam_size
Más precisoMayor beam_size, best_of
Más variedadMayor temperature
Salidas más cortasMenor length_penalty

FloWords verifica actualizaciones de modelo automáticamente. Para verificar manualmente:

  1. Abre Configuración > Modelo
  2. Haz clic en Verificar Actualizaciones

Actualizaciones de modelo pueden incluir:

  • Mejoras de precisión
  • Nuevo soporte de idiomas
  • Optimizaciones de rendimiento
  • Correcciones de errores