IA Lab isotipo IA Lab IA LAB Ranking Datos en vivo · diario
IA para los que no programan · Observatorio de modelos

Los modelos de IA más poderosos.
Y cuánto valen de verdad.

Texto, imagen, voz, música y video: quién manda en cada categoría, qué cuesta cada modelo y dónde está el sweet spot entre precio e inteligencia. Sin humo: benchmarks independientes, actualizados cada día a las 6:00 am.

0
Modelos evaluados
0
Categorías
Última actualización
⚠ Modo demostración — datos de ejemplo. El ranking real no se pudo cargar; intenta de nuevo en unos minutos.
#Modelo Inteligencia Precio Valor

//Precio vs. inteligencia

Cada punto es un modelo. Arriba a la izquierda = mucha inteligencia por poco dinero: la zona sweet spot.

//Metodología

Transparencia total: así se construye este ranking.

¿De dónde salen los datos?

Las puntuaciones de inteligencia y calidad provienen de Artificial Analysis, el evaluador independiente de referencia: para texto usamos su Índice de Inteligencia (0–100, combina los benchmarks más exigentes) y para imagen, voz, música y video el Elo de sus arenas, donde miles de personas votan a ciegas entre resultados de dos modelos. Los precios de texto provienen de la misma fuente (USD por millón de tokens, mezcla 3:1 entrada/salida); los de las demás categorías son tarifas de lista oficiales de cada proveedor, revisadas por el equipo de IA Lab. Como segunda fuente independiente, validamos texto, imagen y video contra el leaderboard público de LMArena: cuando un modelo aparece en su top 10, mostramos su Elo de Arena junto al creador.

¿Cómo se calcula el Valor?

El Valor responde una sola pregunta: ¿cuánta inteligencia recibes por cada dólar? La fórmula es calidad² ÷ √precio, reescalada para que el mejor equilibrio de cada categoría sea 100. Elevar la calidad al cuadrado premia a los modelos realmente buenos (no gana el más mediocre solo por ser regalado) y la raíz del precio evita que un modelo carísimo se hunda si su calidad lo justifica. El sello Sweet spot se otorga a los modelos eficientes: nadie ofrece más calidad por menos dinero (frontera de Pareto) y su Valor es alto. Cada categoría incluye a los 30 mejores por calidad y los 20 mejores por Valor (sin duplicados, fusionando variantes de configuración del mismo modelo): así las joyas baratas-brillantes como DeepSeek V4 Flash compiten junto a los gigantes, en vez de quedar fuera por no estar en el top absoluto de inteligencia.

¿Por qué no promediamos las dos fuentes? Porque Arena solo publica su top 10: combinar ambas puntuaciones premiaría o castigaría únicamente a esos pocos modelos y dejaría al resto medido con otra vara — un sesgo de cobertura clásico. La decisión estadística más limpia es ordenar con la fuente de cobertura completa (Artificial Analysis) y usar Arena como contraste visible: cuando ambas coinciden en la cima, la señal es robusta; cuando divergen, el lector lo ve y juzga por sí mismo.

Unidades de precio por categoría

Texto: USD por 1 millón de tokens (mezcla 3:1) · Imagen: USD por imagen (~1024 px) · Voz: USD por 1 millón de caracteres · Música: USD por canción (~3 min) · Video: USD por segundo generado. Son tarifas de lista de las API oficiales; los proveedores pueden cambiarlas y algunos modelos solo se ofrecen por suscripción (se indica el equivalente estimado).