Texto, imagen, voz, música y video: quién manda en cada categoría, qué cuesta cada modelo y dónde está el sweet spot entre precio e inteligencia. Sin humo: benchmarks independientes, actualizados cada día a las 6:00 am.
| # | Modelo | Inteligencia | Precio | Valor ⓘ |
|---|
Cada punto es un modelo. Arriba a la izquierda = mucha inteligencia por poco dinero: la zona sweet spot.
Transparencia total: así se construye este ranking.
Las puntuaciones de inteligencia y calidad provienen de Artificial Analysis, el evaluador independiente de referencia: para texto usamos su Índice de Inteligencia (0–100, combina los benchmarks más exigentes) y para imagen, voz, música y video el Elo de sus arenas, donde miles de personas votan a ciegas entre resultados de dos modelos. Los precios de texto provienen de la misma fuente (USD por millón de tokens, mezcla 3:1 entrada/salida); los de las demás categorías son tarifas de lista oficiales de cada proveedor, revisadas por el equipo de IA Lab. Como segunda fuente independiente, validamos texto, imagen y video contra el leaderboard público de LMArena: cuando un modelo aparece en su top 10, mostramos su Elo de Arena junto al creador.
El Valor responde una sola pregunta: ¿cuánta inteligencia recibes por cada dólar? La fórmula es calidad² ÷ √precio, reescalada para que el mejor equilibrio de cada categoría sea 100. Elevar la calidad al cuadrado premia a los modelos realmente buenos (no gana el más mediocre solo por ser regalado) y la raíz del precio evita que un modelo carísimo se hunda si su calidad lo justifica. El sello Sweet spot se otorga a los modelos eficientes: nadie ofrece más calidad por menos dinero (frontera de Pareto) y su Valor es alto. Cada categoría incluye a los 30 mejores por calidad y los 20 mejores por Valor (sin duplicados, fusionando variantes de configuración del mismo modelo): así las joyas baratas-brillantes como DeepSeek V4 Flash compiten junto a los gigantes, en vez de quedar fuera por no estar en el top absoluto de inteligencia.
¿Por qué no promediamos las dos fuentes? Porque Arena solo publica su top 10: combinar ambas puntuaciones premiaría o castigaría únicamente a esos pocos modelos y dejaría al resto medido con otra vara — un sesgo de cobertura clásico. La decisión estadística más limpia es ordenar con la fuente de cobertura completa (Artificial Analysis) y usar Arena como contraste visible: cuando ambas coinciden en la cima, la señal es robusta; cuando divergen, el lector lo ve y juzga por sí mismo.
Texto: USD por 1 millón de tokens (mezcla 3:1) · Imagen: USD por imagen (~1024 px) · Voz: USD por 1 millón de caracteres · Música: USD por canción (~3 min) · Video: USD por segundo generado. Son tarifas de lista de las API oficiales; los proveedores pueden cambiarlas y algunos modelos solo se ofrecen por suscripción (se indica el equivalente estimado).