Especificaciones de Modelos

Especificaciones técnicas detalladas para todos los modelos de transcripción compatibles con FloWords.

Resumen de Modelos Whisper

Whisper es el sistema de reconocimiento automático de voz (ASR) de OpenAI. FloWords usa whisper.cpp, una implementación optimizada en C++ para Apple Silicon.

Comparación de Modelos

Modelo	Parámetros	Tamaño	VRAM	WER Inglés	Factor de Velocidad
Tiny	39M	75 MB	~1 GB	8.4%	~32x
Tiny.en	39M	75 MB	~1 GB	7.5%	~32x
Base	74M	142 MB	~1.5 GB	5.0%	~16x
Base.en	74M	142 MB	~1.5 GB	4.3%	~16x
Small	244M	466 MB	~2 GB	3.4%	~6x
Small.en	244M	466 MB	~2 GB	3.0%	~6x
Medium	769M	1.5 GB	~5 GB	2.5%	~2x
Medium.en	769M	1.5 GB	~5 GB	2.1%	~2x
Large-v3	1550M	3 GB	~10 GB	2.0%	~1x

Detalles de Modelos Whisper

Tiny

Nombre: Whisper Tiny
Parámetros: 39 millones
Tamaño de Archivo: 75 MB
Uso de Memoria: ~1 GB
Capas: 4 codificador, 4 decodificador
Dimensión: 384
Cabezas: 6

Mejor para:

Notas rápidas
Sistemas de poca memoria
Transcripción más rápida

Compromisos:

Menor precisión
Puede tener problemas con acentos
Manejo limitado de ruido

Base

Nombre: Whisper Base
Parámetros: 74 millones
Tamaño de Archivo: 142 MB
Uso de Memoria: ~1.5 GB
Capas: 6 codificador, 6 decodificador
Dimensión: 512
Cabezas: 8

Mejor para:

Uso diario general
Buen balance de velocidad y precisión
La mayoría de configuraciones Mac

Compromisos:

Precisión moderada
Algunos errores con términos técnicos

Small

Nombre: Whisper Small
Parámetros: 244 millones
Tamaño de Archivo: 466 MB
Uso de Memoria: ~2 GB
Capas: 12 codificador, 12 decodificador
Dimensión: 768
Cabezas: 12

Mejor para:

Necesidades de mejor precisión
Trabajo profesional
Cuando velocidad no es crítica

Compromisos:

Más lento que Tiny/Base
Mayores requisitos de memoria

Medium

Nombre: Whisper Medium
Parámetros: 769 millones
Tamaño de Archivo: 1.5 GB
Uso de Memoria: ~5 GB
Capas: 24 codificador, 24 decodificador
Dimensión: 1024
Cabezas: 16

Mejor para:

Transcripción profesional
Condiciones de audio desafiantes
Habla con acento

Compromisos:

Uso significativo de memoria
Procesamiento más lento
Requiere 8GB+ RAM

Large-v3

Nombre: Whisper Large v3
Parámetros: 1550 millones
Tamaño de Archivo: 3 GB
Uso de Memoria: ~10 GB
Capas: 32 codificador, 32 decodificador
Dimensión: 1280
Cabezas: 20

Mejor para:

Máxima precisión
Audio difícil
Producción profesional

Compromisos:

Uso muy alto de memoria
Procesamiento más lento
Requiere 16GB+ RAM

Modelos Solo Inglés

Modelos que terminan en .en están optimizados solo para inglés:

Modelo	Multilingüe	Solo Inglés
Tiny	tiny	tiny.en
Base	base	base.en
Small	small	small.en
Medium	medium	medium.en
Large	large-v3	(Sin variante .en)

Ventajas de Modelos `.en`

Procesamiento más rápido - Sin detección de idioma
Ligeramente mejor precisión - Optimizado para inglés
Menor uso de recursos - Vocabulario efectivo más pequeño

Modelos Parakeet

Modelos Parakeet de NVIDIA vía framework FluidAudio.

Parakeet RNNT

Nombre: Parakeet RNNT
Arquitectura: RNN-Transducer
Enfoque: ASR inglés en tiempo real
Latencia: Muy baja
Streaming: Sí

Mejor para:

Transcripción en tiempo real
Dictado en vivo
Contenido en inglés

Parakeet vs Whisper

Aspecto	Whisper	Parakeet
Idiomas	99+	Enfoque inglés
Precisión	Mayor	Buena
Latencia	Mayor	Menor
Streaming	Limitado	Nativo
Memoria	Mayor	Menor

Rendimiento de Modelo por Hardware

Apple Silicon

Modelo	Recomendado	Rendimiento
Tiny	✓ Excelente	~30x tiempo real
Base	✓ Excelente	~15x tiempo real
Small	✓ Bueno	~5x tiempo real
Medium	⚠️ Usable	~2x tiempo real
Large	⚠️ Lento	~0.5x tiempo real

Modelo	Recomendado	Rendimiento
Tiny	✓ Excelente	~40x tiempo real
Base	✓ Excelente	~20x tiempo real
Small	✓ Excelente	~8x tiempo real
Medium	✓ Bueno	~3x tiempo real
Large	✓ Usable	~1x tiempo real

Modelo	Recomendado	Rendimiento
Tiny	✓ Excelente	~45x tiempo real
Base	✓ Excelente	~22x tiempo real
Small	✓ Excelente	~9x tiempo real
Medium	✓ Bueno	~4x tiempo real
Large	✓ Usable	~1.2x tiempo real

Modelo	Recomendado	Rendimiento
Tiny	✓ Excelente	~50x tiempo real
Base	✓ Excelente	~25x tiempo real
Small	✓ Excelente	~12x tiempo real
Medium	✓ Excelente	~5x tiempo real
Large	✓ Bueno	~2x tiempo real

Macs Intel

Modelo	8GB RAM	16GB RAM	32GB+ RAM
Tiny	✓ Bueno	✓ Bueno	✓ Bueno
Base	✓ Usable	✓ Bueno	✓ Bueno
Small	⚠️ Lento	✓ Usable	✓ Bueno
Medium	❌ No recomendado	⚠️ Lento	✓ Usable
Large	❌ No recomendado	❌ No recomendado	⚠️ Lento

Soporte de Idiomas

Nivel 1: Mejor Soporte (WER < 5%)

Inglés, Español, Francés, Alemán, Italiano, Portugués, Holandés, Ruso, Japonés, Chino, Coreano

Nivel 2: Buen Soporte (WER 5-15%)

Árabe, Checo, Danés, Finlandés, Griego, Hebreo, Hindi, Húngaro, Indonesio, Noruego, Polaco, Rumano, Sueco, Tailandés, Turco, Ucraniano, Vietnamita

Nivel 3: Soporte Básico (WER > 15%)

Todos los otros 70+ idiomas compatibles con Whisper

Especificaciones de Audio

Requisitos de Entrada

Especificación	Valor
Tasa de Muestreo	16000 Hz
Profundidad de Bits	16-bit
Canales	Mono
Formato	PCM

FloWords convierte automáticamente audio a estas especificaciones.

Formatos de Entrada Compatibles

Formato	Extensión	Notas
WAV	.wav	Soporte nativo
MP3	.mp3	Convertido a WAV
M4A	.m4a	Convertido a WAV
AAC	.aac	Convertido a WAV
FLAC	.flac	Convertido a WAV
AIFF	.aiff	Convertido a WAV
CAF	.caf	Convertido a WAV
MP4	.mp4	Audio extraído
MOV	.mov	Audio extraído

Guía de Selección de Modelo

Por Caso de Uso

Caso de Uso	Modelo Recomendado
Notas rápidas	Tiny
Uso diario	Base
Documentos	Small
Profesional	Medium
Máxima precisión	Large-v3

Por RAM Disponible

RAM	Modelo Máximo
4 GB	Base
8 GB	Small
16 GB	Medium
32 GB+	Large-v3

Por Tipo de Contenido

Contenido	Recomendado
Habla clara	Cualquiera
Ruido de fondo	Medium+
Términos técnicos	Medium+ con diccionario
Múltiples hablantes	Medium+
Habla con acento	Medium+

Configuración Avanzada

Parámetros de Modelo

Parámetro	Rango	Predeterminado	Efecto
beam_size	1-10	5	Precisión vs velocidad
best_of	1-5	1	Candidatos considerados
temperature	0.0-1.0	0.0	Aleatoriedad de predicción
patience	0.0-2.0	1.0	Detención temprana
length_penalty	0.0-2.0	1.0	Sesgo de longitud

Cuándo Ajustar

Objetivo	Ajuste
Más rápido	Menor beam_size
Más preciso	Mayor beam_size, best_of
Más variedad	Mayor temperature
Salidas más cortas	Menor length_penalty

Actualizaciones de Modelo

Verificar Actualizaciones

FloWords verifica actualizaciones de modelo automáticamente. Para verificar manualmente:

Abre Configuración > Modelo
Haz clic en Verificar Actualizaciones

Proceso de Actualización

Actualizaciones de modelo pueden incluir:

Mejoras de precisión
Nuevo soporte de idiomas
Optimizaciones de rendimiento
Correcciones de errores

Siguientes Pasos

Descargar Modelos para comenzar
Configurar Ajustes para tus necesidades
Revisar Mejores Prácticas para uso óptimo

Especificaciones de Modelos

Resumen de Modelos Whisper

Comparación de Modelos

Detalles de Modelos Whisper

Tiny

Base

Small

Medium

Large-v3

Modelos Solo Inglés

Ventajas de Modelos .en

Modelos Parakeet

Parakeet RNNT

Parakeet vs Whisper

Rendimiento de Modelo por Hardware

Apple Silicon

Macs Intel

Soporte de Idiomas

Nivel 1: Mejor Soporte (WER < 5%)

Nivel 2: Buen Soporte (WER 5-15%)

Nivel 3: Soporte Básico (WER > 15%)

Especificaciones de Audio

Requisitos de Entrada

Formatos de Entrada Compatibles

Guía de Selección de Modelo

Por Caso de Uso

Por RAM Disponible

Por Tipo de Contenido

Configuración Avanzada

Parámetros de Modelo

Cuándo Ajustar

Actualizaciones de Modelo

Verificar Actualizaciones

Proceso de Actualización

Siguientes Pasos

Ventajas de Modelos `.en`