La empresa tecnológica OpenAI fue noticia el mes pasado cuando su último modelo experimental de chatbot, o3, obtuvo una alta puntuación en una prueba que marca el progreso hacia la inteligencia artificial general (AGI), señala un artículo en “Nature”.
El o3 de OpenAI obtuvo un 87,5%, superando la mejor puntuación anterior para un sistema de inteligencia artificial (IA) del 55,5%.
Se trata de “un verdadero avance”, afirma el investigador de IA François Chollet, que creó la prueba, llamada Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), en 2019 mientras trabajaba en Google, con sede en Mountain View, California.
Una alta puntuación en la prueba no significa que se haya logrado la AGI (definida en términos generales como un sistema informático que puede razonar, planificar y aprender habilidades tan bien como los humanos), afirma Chollet, pero o3 es “absolutamente” capaz de razonar y “tiene un poder de generalización bastante sustancial”.
Los investigadores están sorprendidos por el desempeño de o3 en una variedad de pruebas, o puntos de referencia, incluida la extremadamente difícil prueba FrontierMath, anunciada en noviembre por el instituto de investigación virtual Epoch AI. “Es extremadamente impresionante”, dice David Rein, un investigador de evaluación comparativa de IA en el grupo Model Evaluation & Threat Research, con sede en Berkeley, California.
Pero muchos, incluido Rein, advierten que es difícil decir si la prueba ARC-AGI realmente mide la capacidad de la IA para razonar y generalizar. “Ha habido muchos puntos de referencia que pretenden medir algo fundamental para la inteligencia, y resulta que no lo hicieron”, dice Rein. La búsqueda continúa, dice, por pruebas cada vez mejores.
OpenAI, con sede en San Francisco, no ha revelado cómo funciona o3, pero el sistema llegó a la escena poco después del modelo o1 de la empresa, que utiliza la lógica de “cadena de pensamiento” para resolver problemas hablándose a sí mismo a través de una serie de pasos de razonamiento. Algunos especialistas creen que o3 podría estar produciendo una serie de diferentes cadenas de pensamiento para ayudar a seleccionar la mejor respuesta de entre una gama de opciones.
Pasar más tiempo refinando una respuesta en el momento de la prueba hace una gran diferencia en los resultados, dice Chollet, que ahora tiene su base en Seattle, Washington. Pero o3 tiene un costo enorme: para abordar cada tarea en la prueba ARC-AGI, su modo de alta puntuación tomó un promedio de 14 minutos y probablemente costó miles de dólares. (Los costos de computación se estiman, dice Chollet, sobre la base de cuánto cobra OpenAI a los clientes por token o palabra, que depende de factores como el uso de electricidad y los costos de hardware). Esto “plantea preocupaciones de sostenibilidad”, dice Xiang Yue de la Universidad Carnegie Mellon en Pittsburgh, Pensilvania, que estudia los grandes modelos de lenguaje (LLM) que impulsan los chatbots.
GENERALMENTE INTELIGENTE
Aunque el término AGI se usa a menudo para describir un sistema informático que iguala o supera las capacidades cognitivas humanas en una amplia gama de tareas, no existe una definición técnica para ello. Como resultado, no hay consenso sobre cuándo las herramientas de IA podrían lograr la IAG. Algunos dicen que el momento ya ha llegado; otros dicen que aún falta mucho.
Se están desarrollando muchas pruebas para seguir el progreso hacia la IAG. Algunas, incluida la prueba de preguntas y respuestas de Google de Rein de 2023, tienen como objetivo evaluar el desempeño de un sistema de IA en problemas científicos de nivel de doctorado. El MLE-bench de OpenAI de 2024 enfrenta a un sistema de IA a 75 desafíos alojados en Kaggle, una plataforma de competencia de ciencia de datos en línea. Los desafíos incluyen problemas del mundo real como la traducción de pergaminos antiguos y el desarrollo de vacunas.
Los buenos puntos de referencia deben evitar una serie de problemas. Por ejemplo, es esencial que la IA no haya visto las mismas preguntas durante el entrenamiento, y las preguntas deben estar diseñadas de tal manera que la IA no pueda hacer trampa tomando atajos. “Los LLM son expertos en aprovechar las pistas textuales sutiles para obtener respuestas sin tener que razonar de verdad”, dice Yue. Lo ideal sería que las pruebas fueran tan desordenadas y ruidosas como las condiciones del mundo real, y que al mismo tiempo establecieran objetivos de eficiencia energética, añade.
Yue dirigió el desarrollo de una prueba llamada Massive Multi-disciplinary Multimodal Understanding and Reasoning Benchmark for Expert AGI (MMMU), que pide a los chatbots que realicen tareas visuales de nivel universitario, como interpretar partituras, gráficos y diagramas de circuitos4. Yue dice que o1 de OpenAI tiene el récord actual de MMMU del 78,2% (se desconoce la puntuación de o3), en comparación con un rendimiento humano de primer nivel del 88,6%.
En cambio, el ARC-AGI se basa en habilidades básicas de matemáticas y reconocimiento de patrones que los seres humanos suelen desarrollar en la primera infancia. Ofrece a los participantes un conjunto de diseños de antes y después, y les pide que infieran el estado “después” de un nuevo diseño “antes” (véase “Antes y después”). “Me gusta la prueba ARC-AGI por su perspectiva complementaria”, dice Yue.