Frase de mi abuela paterna que recuerdo con cariño. Probablemente no fuese suya (obviamente): «Compra caro y vende barato, y harás un buen trato»
El que compra lo superfluo, pronto tendrá que vender lo necesario. – Benjamín Franklin (1706-1790)
No hay en el mundo cosa más cara que la que con ruegos se compra. – Fray Antonio de Guevara (1480-1545)
Una startup china con un modelo de coste novedoso, destroza la IA de EEUU en una semana de uso. Más de 1,5B$ (el PIB español) perdidos en una sola jornada, de los cuales 400MM$ (casi un 20% del PIB español) de NVIDIA volatilizados.
OpenAI vs. DeepSeek: Un Análisis Comparativo del Gasto de Capital (CapEx)
IA: un cambio significativo en la forma en que las empresas abordan el gasto de capital (CapEx) para desarrollar modelos de lenguaje de gran capacidad (LLM).
OpenAI y DeepSeek representan dos estrategias diferentes.
1. Costos de Desarrollo
OpenAI: Según los informes, el modelo GPT-4o de OpenAI costó más de $100 millones para desarrollarse, involucrando amplios recursos computacionales y hardware avanzado como las GPU H100 de Nvidia. El proceso de capacitación requirió millones de horas de GPU.
DeepSeek V3, con 671 mil millones de parámetros, se desarrolló a una fracción del costo: $5.58 millones. Se logró utilizando GPU Nvidia H800, menos potentes pero más eficientes, con técnicas MoE Mixture-of-Experts. Mixture of Experts (MoE) es una arquitectura de red neuronal que se utiliza para mejorar la eficiencia y el rendimiento de los modelos de inteligencia artificial al asignar dinámicamente partes especializadas del modelo a diferentes tareas o entradas. Se trata de tener varios «expertos» (submodelos o capas especializadas) que se activan solo cuando es necesario, en lugar de activar todo el modelo para cada entrada. Un divide y vencerás de toda la vida. Abrimos varias hebras, subtareas cuando el árbol de decisión así lo sugiere. En lugar de activar a todos los expertos para cada entrada, MoE incluye un «mecanismo de enrutamiento» o «gate» que decide qué expertos son los más relevantes para procesar una entrada específica. Este enrutador asigna una o varias entradas a los expertos adecuados.
2. Hardware y Recursos
OpenAI: se basa en hardware de vanguardia, como las GPU Nvidia H100 y H200, que están sujetas a restricciones de exportación de Estados Unidos a China. Los chips de alto rendimiento aumenta significativamente los costos.
DeepSeek: DeepSeek ha optimizado su uso de hardware mediante el empleo de GPU Nvidia H800, diseñadas para el mercado chino, menos competitivas y más económicas. La compañía también utiliza técnicas avanzadas como la predicción multi-token y el equilibrio de carga dinámica para reducir los requisitos computacionales. Tengo poca chapa, voy a exprimirla al máximo.
3. Eficiencia de Entrenamiento
Los modelos de OpenAIais generalmente requieren meses de entrenamiento y millones de horas de GPU. Por ejemplo, Meta Llama 3.1, un modelo comparable, requirió 30.8 millones de horas de GPU. El modelo DeepSeek V3 fue entrenado en solo dos meses usando 2.78 millones de horas de GPU, mostrando una eficiencia notable. Esto se logró a través de innovaciones algorítmicas y optimizaciones de hardware. Volvemos a lo mismo, tengo pocos recursos y tengo que sacarles el máximo.
4. Implicaciones para la industria de la IA
La estrategia de CapEx de OpenAI refuerza la noción de que liderar el desarrollo de IA requiere mucha pasta. Este enfoque supone una barrera muy alta para quien quiera jugar en ese tablero.
El modelo más rentable de DeepSeek desafía este paradigma, demostrando que la innovación puede prosperar bajo restricciones de recursos. Supone democratizar la IA a un coste irrisorio, lo que hace temblar los modelos hasta ahora de más chapa, energía y plata.
5. Contexto Geopolítico
OpenAI se beneficia del acceso a la tecnología avanzada de los Estados Unidos, pero enfrenta desafíos en la escala debido a los altos costos, gran cantidad de energía y dependencias del hardware. El éxito de DeepSeek pone la capacidad de China para innovar a pesar de las restricciones de exportación de Estados Unidos, como un reto y a la vez una forma de impactar de pleno en un modelo basado en «donde como yo no come nadie». El enfoque de Deepseek podría inspirar a otras naciones, por ejemplo europeas a adoptar estrategias similares, cambiando el panorama global de IA.
Modelo Open Source. Potente, rentable
Al tiempo que proporciona un rendimiento similar a lo que la comunidad llama «modelos de frontera» (frontier models), DeepSeek-V3 también sobresale con sus menores costos de operación. DeepSeek-V3 afirma además precios significativamente más bajos para sus servicios en línea, con 1 millón de tokens con un precio de solo $1.1, actualmente ofrecidos a una tasa promocional de $0.28, un contraste dramático con los precios de $10 de GPT-4o.
DeepSeek-V3 está disponible para descarga gratuita y ejecución local, lo que ofrece ventajas significativas para los usuarios que priorizan la privacidad de los datos, trabajan en áreas con acceso limitado a Internet o buscan un mayor control sobre sus herramientas de IA. Esto contrasta fuertemente con modelos como Copilot de Microsoft, Gemini de Google y la serie GPT de OpenAI, que requieren una conexión a Internet constante.
Para las empresas que priorizan la seguridad de los datos y la privacidad, la implementación de una copia local de DeepSeek-V3 ofrece una solución potente que les permite aprovechar la IA de vanguardia sin comprometer la información confidencial.
Test de funcionamiento: ALIA (Gobieno de España), ChatGPT-4o, Claude.ai, DeepSeek-v3
He creado un prompt, un poco ambiguo, con un contexto muy claro para todos los modelos anteriores: «Escríbeme un post para linkedin sobre Inteligencia Artificial, que hable y compare los modelos de Alia, OpenAi DeepSeek y Claude Anthropik»
Las respuestas:
ALIA:
«No se pudo encontrar una respuesta para su pregunta. Puede intentar reformularla o ser más específico
ChatGPT 4o:
«Aquí tienes un ejemplo de post para LinkedIn sobre Inteligencia Artificial comparando los modelos Alia, OpenAI, DeepSeek y Claude de Anthropic: