El conocimiento académico se acumula a una velocidad que desborda cualquier memoria humana. La buena noticia es que la IA puede leer colecciones enteras de publicaciones académicas mientras identifica términos, relaciones y resultados citados en distintos trabajos.
Ese tipo de herramienta interesa a los investigadores porque reduce horas de búsqueda en bibliotecas digitales. Además, facilita a estudiantes que llegan a un campo nuevo localizar antecedentes de un problema complejo sin revisar manualmente cada publicación.
La posibilidad de consultar grandes conjuntos de estudios con rapidez abre una pregunta inevitable sobre si esas máquinas pueden entender realmente el contenido de lo que analizan.
Equipos universitarios analizan hasta qué punto las máquinas comprenden física avanzada
Un equipo liderado por Haoyu Guo y Michael P. Brenner realizó un experimento para medir esa capacidad y publicó los resultados en Proceedings of the National Academy of Sciences (PNAS). El trabajo evaluó si varios modelos de lenguaje podían interpretar literatura científica sobre superconductores cupratos con el nivel de comprensión de especialistas.
Los investigadores reunieron una colección de 1.726 trabajos científicos y formularon 67 preguntas diseñadas por expertos en ese campo. Las respuestas producidas por distintos sistemas de inteligencia artificial se compararon después con las valoraciones de especialistas humanos.
El diseño del experimento incorporó a doce expertos que evaluaron las respuestas sin saber qué sistema las había generado. Entre las herramientas examinadas aparecieron ChatGPT-4, Claude 3.5, Perplexity, Gemini Advanced Pro 1.5 y NotebookLM, junto con un sistema personalizado basado en recuperación de documentos. Los investigadores también probaron versiones que trabajaban con documentos previamente seleccionados por especialistas.
Según explicó Haoyu Guo, investigador posdoctoral del Laboratory of Atomic and Solid State Physics de la Universidad de Cornell, “los modelos que trabajan con fuentes fiables tienden a rendir mejor que los que buscan información general en internet”. El equipo, por lo tanto, comprobó que los sistemas entrenados con literatura seleccionada ofrecían respuestas más correctas que aquellos que dependían de búsquedas abiertas.
Las máquinas resumen bien pero fallan cuando deben explicar fenómenos físicos
Aun así, los resultados dejaron al descubierto una contradicción llamativa. Las máquinas demostraron gran habilidad para extraer datos de texto y resumir trabajos complejos. Sin embargo, el rendimiento caía cuando las preguntas exigían interpretar resultados experimentales o relacionar conceptos físicos con detalle.
Investigadores de la Universidad de Cornell y de Google DeepMind observaron que los modelos conectaban términos con facilidad pero cometían errores cuando debían explicar procesos físicos. Esa diferencia sugiere que los algoritmos detectan patrones estadísticos en el lenguaje pero no construyen una comprensión profunda del fenómeno descrito en los artículos.
Ese problema se relaciona con la llamada ausencia de un modelo de mundo. Los científicos utilizan la literatura para construir una imagen mental coherente de cómo funciona la materia. Los sistemas de lenguaje, en cambio, predicen secuencias de palabras a partir de datos previos sin crear una representación conceptual del proceso físico. El resultado se parece al comportamiento de un estudiante que memoriza textos sin dominar los principios que los explican. Cuando se le plantean preguntas nuevas en la frontera del conocimiento, ese aprendizaje superficial provoca fallos.
Los errores pueden afectar a proyectos experimentales de larga duración
El estudio también señala riesgos concretos cuando estos sistemas se emplean en investigación avanzada. En áreas experimentales, un error de interpretación puede comprometer años de trabajo de laboratorio. Los autores detectaron casos en los que algunos modelos inventaban referencias bibliográficas o simplificaban debates complejos presentes en los artículos.
Eun-Ah Kim, profesora Hans A. Bethe de Física en la Universidad de Cornell y autora correspondiente del estudio, explicó que “este trabajo examina si los modelos de lenguaje pueden leer la literatura científica como lo haría un experto”. La investigadora añadió que “hay lagunas claras en lo que estos sistemas pueden hacer ahora mismo y eso muestra que todavía no se acercan a una inteligencia artificial general”.
Los resultados no descartan el uso de estas herramientas en investigación, pero delimitan su función actual. Los sistemas analizados pueden ayudar a recorrer bibliografía extensa y localizar información concreta. También pueden orientar a estudiantes que empiezan en un campo complejo al ofrecer resúmenes de grandes colecciones de trabajos.
Sin embargo, la interpretación profunda de los datos experimentales sigue dependiendo del juicio humano. En esa división del trabajo, la inteligencia artificial actúa como asistente de lectura mientras los científicos conservan la tarea de evaluar hipótesis y validar conclusiones.
