DeepSeek R1, un nuevo modelo de razonamiento de código abierto, revolucionó a la comunidad de inteligencia artificial (IA) cuando el mundo occidental supo de él durante la última semana de enero.
El modelo fue desarrollado por la empresa china de IA DeepSeek, que afirma que R1 iguala o incluso supera a ChatGPT o1 de OpenAI en múltiples puntos de referencia clave, pero funciona a una fracción del costo, lo que sin duda democratiza el uso de estas tecnologías.
El éxito de DeepSeek es aún más notable dadas las limitaciones que enfrentan las empresas de IA chinas en forma de controles de exportación estadounidenses sobre chips de última generación.
Las sanciones de EE. UU. han fomentado la innovación china
La evidencia preliminar muestra que estas medidas no están funcionando como se esperaba. En lugar de debilitar las capacidades de IA de China, las sanciones parecen impulsar a empresas emergentes como DeepSeek a innovar de maneras que priorizan la eficiencia, la puesta en común de recursos y la colaboración.
Para crear R1, DeepSeek tuvo que rediseñar su proceso de entrenamiento para reducir la tensión en sus GPU, una variedad lanzada por Nvidia para el mercado chino que tiene un rendimiento limitado a la mitad de la velocidad de sus productos principales, según Zihan Wang, ex empleado de DeepSeek y actual estudiante de doctorado en informática en la Universidad Northwestern, citado por MIT.
Un rendimiento óptimo
Los investigadores han elogiado a DeepSeek R1 por su capacidad para abordar tareas de razonamiento complejas, particularmente en matemáticas y codificación. El modelo emplea un enfoque de «cadena de pensamiento» similar al utilizado por ChatGPT o1, que le permite resolver problemas procesando consultas paso a paso.
DeepSeek también ha lanzado seis versiones más pequeñas de R1 que son lo suficientemente pequeñas como para ejecutarse localmente en computadoras portátiles. Afirma que una de ellas incluso supera al o1-mini de OpenAI en ciertos puntos de referencia.
A pesar del revuelo en torno a R1, DeepSeek sigue siendo relativamente desconocido. Con sede en Hangzhou, China, fue fundada en julio de 2023 por Liang Wenfeng, un exalumno de la Universidad de Zhejiang con experiencia en ingeniería electrónica y de la información. El proyecto fue incubado por High-Flyer, un fondo de cobertura que Liang fundó en 2015.
Al igual que Sam Altman de OpenAI, Liang tiene como objetivo construir inteligencia artificial general (AGI), una forma de IA que puede igualar o incluso superar a los humanos en una variedad de tareas.
Más allá de que la construcción de modelos básicos como ChatGPT requiere una cantidad enorme de recursos, la situación se complica aún más por los controles de exportación de Estados Unidos sobre semiconductores avanzados. Sin embargo, la decisión de High-Flyer de aventurarse en la IA está directamente relacionada con estas restricciones.
Una jugada maestra
Mucho antes de las sanciones previstas, Liang adquirió una importante reserva de chips Nvidia A100, un tipo que ahora está prohibido exportar a China, que algunos estiman hasta en 50 mil unidades.
Reconocer el potencial de este acopio para el entrenamiento de la IA es lo que llevó a Liang a crear DeepSeek, que pudo utilizarlos en combinación con los chips de menor potencia para desarrollar sus modelos.
Continúa leyendo: Cultivan redes neuronales en laboratorio que muestran un comportamiento similar al del cerebro: ¿qué implica?
Se parte de nuestra comunidad en nuestras redes sociales