Especificaciones de Modelos
Especificaciones técnicas detalladas para todos los modelos de transcripción compatibles con FloWords.
Resumen de Modelos Whisper
Sección titulada «Resumen de Modelos Whisper»Whisper es el sistema de reconocimiento automático de voz (ASR) de OpenAI. FloWords usa whisper.cpp, una implementación optimizada en C++ para Apple Silicon.
Comparación de Modelos
Sección titulada «Comparación de Modelos»| Modelo | Parámetros | Tamaño | VRAM | WER Inglés | Factor de Velocidad |
|---|---|---|---|---|---|
| Tiny | 39M | 75 MB | ~1 GB | 8.4% | ~32x |
| Tiny.en | 39M | 75 MB | ~1 GB | 7.5% | ~32x |
| Base | 74M | 142 MB | ~1.5 GB | 5.0% | ~16x |
| Base.en | 74M | 142 MB | ~1.5 GB | 4.3% | ~16x |
| Small | 244M | 466 MB | ~2 GB | 3.4% | ~6x |
| Small.en | 244M | 466 MB | ~2 GB | 3.0% | ~6x |
| Medium | 769M | 1.5 GB | ~5 GB | 2.5% | ~2x |
| Medium.en | 769M | 1.5 GB | ~5 GB | 2.1% | ~2x |
| Large-v3 | 1550M | 3 GB | ~10 GB | 2.0% | ~1x |
Detalles de Modelos Whisper
Sección titulada «Detalles de Modelos Whisper»Nombre: Whisper TinyParámetros: 39 millonesTamaño de Archivo: 75 MBUso de Memoria: ~1 GBCapas: 4 codificador, 4 decodificadorDimensión: 384Cabezas: 6Mejor para:
- Notas rápidas
- Sistemas de poca memoria
- Transcripción más rápida
Compromisos:
- Menor precisión
- Puede tener problemas con acentos
- Manejo limitado de ruido
Nombre: Whisper BaseParámetros: 74 millonesTamaño de Archivo: 142 MBUso de Memoria: ~1.5 GBCapas: 6 codificador, 6 decodificadorDimensión: 512Cabezas: 8Mejor para:
- Uso diario general
- Buen balance de velocidad y precisión
- La mayoría de configuraciones Mac
Compromisos:
- Precisión moderada
- Algunos errores con términos técnicos
Nombre: Whisper SmallParámetros: 244 millonesTamaño de Archivo: 466 MBUso de Memoria: ~2 GBCapas: 12 codificador, 12 decodificadorDimensión: 768Cabezas: 12Mejor para:
- Necesidades de mejor precisión
- Trabajo profesional
- Cuando velocidad no es crítica
Compromisos:
- Más lento que Tiny/Base
- Mayores requisitos de memoria
Nombre: Whisper MediumParámetros: 769 millonesTamaño de Archivo: 1.5 GBUso de Memoria: ~5 GBCapas: 24 codificador, 24 decodificadorDimensión: 1024Cabezas: 16Mejor para:
- Transcripción profesional
- Condiciones de audio desafiantes
- Habla con acento
Compromisos:
- Uso significativo de memoria
- Procesamiento más lento
- Requiere 8GB+ RAM
Large-v3
Sección titulada «Large-v3»Nombre: Whisper Large v3Parámetros: 1550 millonesTamaño de Archivo: 3 GBUso de Memoria: ~10 GBCapas: 32 codificador, 32 decodificadorDimensión: 1280Cabezas: 20Mejor para:
- Máxima precisión
- Audio difícil
- Producción profesional
Compromisos:
- Uso muy alto de memoria
- Procesamiento más lento
- Requiere 16GB+ RAM
Modelos Solo Inglés
Sección titulada «Modelos Solo Inglés»Modelos que terminan en .en están optimizados solo para inglés:
| Modelo | Multilingüe | Solo Inglés |
|---|---|---|
| Tiny | tiny | tiny.en |
| Base | base | base.en |
| Small | small | small.en |
| Medium | medium | medium.en |
| Large | large-v3 | (Sin variante .en) |
Ventajas de Modelos .en
Sección titulada «Ventajas de Modelos .en»- Procesamiento más rápido - Sin detección de idioma
- Ligeramente mejor precisión - Optimizado para inglés
- Menor uso de recursos - Vocabulario efectivo más pequeño
Modelos Parakeet
Sección titulada «Modelos Parakeet»Modelos Parakeet de NVIDIA vía framework FluidAudio.
Parakeet RNNT
Sección titulada «Parakeet RNNT»Nombre: Parakeet RNNTArquitectura: RNN-TransducerEnfoque: ASR inglés en tiempo realLatencia: Muy bajaStreaming: SíMejor para:
- Transcripción en tiempo real
- Dictado en vivo
- Contenido en inglés
Parakeet vs Whisper
Sección titulada «Parakeet vs Whisper»| Aspecto | Whisper | Parakeet |
|---|---|---|
| Idiomas | 99+ | Enfoque inglés |
| Precisión | Mayor | Buena |
| Latencia | Mayor | Menor |
| Streaming | Limitado | Nativo |
| Memoria | Mayor | Menor |
Rendimiento de Modelo por Hardware
Sección titulada «Rendimiento de Modelo por Hardware»Apple Silicon
Sección titulada «Apple Silicon»| Modelo | Recomendado | Rendimiento |
|---|---|---|
| Tiny | ✓ Excelente | ~30x tiempo real |
| Base | ✓ Excelente | ~15x tiempo real |
| Small | ✓ Bueno | ~5x tiempo real |
| Medium | ⚠️ Usable | ~2x tiempo real |
| Large | ⚠️ Lento | ~0.5x tiempo real |
| Modelo | Recomendado | Rendimiento |
|---|---|---|
| Tiny | ✓ Excelente | ~40x tiempo real |
| Base | ✓ Excelente | ~20x tiempo real |
| Small | ✓ Excelente | ~8x tiempo real |
| Medium | ✓ Bueno | ~3x tiempo real |
| Large | ✓ Usable | ~1x tiempo real |
| Modelo | Recomendado | Rendimiento |
|---|---|---|
| Tiny | ✓ Excelente | ~45x tiempo real |
| Base | ✓ Excelente | ~22x tiempo real |
| Small | ✓ Excelente | ~9x tiempo real |
| Medium | ✓ Bueno | ~4x tiempo real |
| Large | ✓ Usable | ~1.2x tiempo real |
| Modelo | Recomendado | Rendimiento |
|---|---|---|
| Tiny | ✓ Excelente | ~50x tiempo real |
| Base | ✓ Excelente | ~25x tiempo real |
| Small | ✓ Excelente | ~12x tiempo real |
| Medium | ✓ Excelente | ~5x tiempo real |
| Large | ✓ Bueno | ~2x tiempo real |
Macs Intel
Sección titulada «Macs Intel»| Modelo | 8GB RAM | 16GB RAM | 32GB+ RAM |
|---|---|---|---|
| Tiny | ✓ Bueno | ✓ Bueno | ✓ Bueno |
| Base | ✓ Usable | ✓ Bueno | ✓ Bueno |
| Small | ⚠️ Lento | ✓ Usable | ✓ Bueno |
| Medium | ❌ No recomendado | ⚠️ Lento | ✓ Usable |
| Large | ❌ No recomendado | ❌ No recomendado | ⚠️ Lento |
Soporte de Idiomas
Sección titulada «Soporte de Idiomas»Nivel 1: Mejor Soporte (WER < 5%)
Sección titulada «Nivel 1: Mejor Soporte (WER < 5%)»Inglés, Español, Francés, Alemán, Italiano, Portugués, Holandés, Ruso, Japonés, Chino, Coreano
Nivel 2: Buen Soporte (WER 5-15%)
Sección titulada «Nivel 2: Buen Soporte (WER 5-15%)»Árabe, Checo, Danés, Finlandés, Griego, Hebreo, Hindi, Húngaro, Indonesio, Noruego, Polaco, Rumano, Sueco, Tailandés, Turco, Ucraniano, Vietnamita
Nivel 3: Soporte Básico (WER > 15%)
Sección titulada «Nivel 3: Soporte Básico (WER > 15%)»Todos los otros 70+ idiomas compatibles con Whisper
Especificaciones de Audio
Sección titulada «Especificaciones de Audio»Requisitos de Entrada
Sección titulada «Requisitos de Entrada»| Especificación | Valor |
|---|---|
| Tasa de Muestreo | 16000 Hz |
| Profundidad de Bits | 16-bit |
| Canales | Mono |
| Formato | PCM |
FloWords convierte automáticamente audio a estas especificaciones.
Formatos de Entrada Compatibles
Sección titulada «Formatos de Entrada Compatibles»| Formato | Extensión | Notas |
|---|---|---|
| WAV | .wav | Soporte nativo |
| MP3 | .mp3 | Convertido a WAV |
| M4A | .m4a | Convertido a WAV |
| AAC | .aac | Convertido a WAV |
| FLAC | .flac | Convertido a WAV |
| AIFF | .aiff | Convertido a WAV |
| CAF | .caf | Convertido a WAV |
| MP4 | .mp4 | Audio extraído |
| MOV | .mov | Audio extraído |
Guía de Selección de Modelo
Sección titulada «Guía de Selección de Modelo»Por Caso de Uso
Sección titulada «Por Caso de Uso»| Caso de Uso | Modelo Recomendado |
|---|---|
| Notas rápidas | Tiny |
| Uso diario | Base |
| Documentos | Small |
| Profesional | Medium |
| Máxima precisión | Large-v3 |
Por RAM Disponible
Sección titulada «Por RAM Disponible»| RAM | Modelo Máximo |
|---|---|
| 4 GB | Base |
| 8 GB | Small |
| 16 GB | Medium |
| 32 GB+ | Large-v3 |
Por Tipo de Contenido
Sección titulada «Por Tipo de Contenido»| Contenido | Recomendado |
|---|---|
| Habla clara | Cualquiera |
| Ruido de fondo | Medium+ |
| Términos técnicos | Medium+ con diccionario |
| Múltiples hablantes | Medium+ |
| Habla con acento | Medium+ |
Configuración Avanzada
Sección titulada «Configuración Avanzada»Parámetros de Modelo
Sección titulada «Parámetros de Modelo»| Parámetro | Rango | Predeterminado | Efecto |
|---|---|---|---|
| beam_size | 1-10 | 5 | Precisión vs velocidad |
| best_of | 1-5 | 1 | Candidatos considerados |
| temperature | 0.0-1.0 | 0.0 | Aleatoriedad de predicción |
| patience | 0.0-2.0 | 1.0 | Detención temprana |
| length_penalty | 0.0-2.0 | 1.0 | Sesgo de longitud |
Cuándo Ajustar
Sección titulada «Cuándo Ajustar»| Objetivo | Ajuste |
|---|---|
| Más rápido | Menor beam_size |
| Más preciso | Mayor beam_size, best_of |
| Más variedad | Mayor temperature |
| Salidas más cortas | Menor length_penalty |
Actualizaciones de Modelo
Sección titulada «Actualizaciones de Modelo»Verificar Actualizaciones
Sección titulada «Verificar Actualizaciones»FloWords verifica actualizaciones de modelo automáticamente. Para verificar manualmente:
- Abre Configuración > Modelo
- Haz clic en Verificar Actualizaciones
Proceso de Actualización
Sección titulada «Proceso de Actualización»Actualizaciones de modelo pueden incluir:
- Mejoras de precisión
- Nuevo soporte de idiomas
- Optimizaciones de rendimiento
- Correcciones de errores
Siguientes Pasos
Sección titulada «Siguientes Pasos»- Descargar Modelos para comenzar
- Configurar Ajustes para tus necesidades
- Revisar Mejores Prácticas para uso óptimo