Un estudio concluyó que ChatGPT responde como si entendiera las emociones o pensamientos de su interlocutor

Una de las habilidades que definimos como ser humano es la capacidad de socavar lo que pensamos sobre las personas con las que interactuamos. Si alguien está sentado con la ventana cerrada y una amiga le dice «hace un poco de calor aquí», automáticamente interpretará que le da pena abrir la ventana. Esta lectura entre líneas, la capacidad de imaginar lo que piensan quienes nos rodean, si conoce la teoría de la mente y es uno de los fundamentos sobre lo que sustenta las relaciones sociales.

Las herramientas de inteligencia artificial (IA) generativa se han visto eclipsadas por su capacidad para articular texto de manera consistente en respuesta a instrucciones dadas. Desde que ChatGPT, o incluso antes, estalló en 2022, científicos y pensadores de todo el mundo se preguntan si estos sistemas son capaces de exhibir un comportamiento que no se puede distinguir del de las personas. ¿Es viable una teoría de la mente artificial? Un equipo de científicos se propuso probar si los modelos de lenguaje grandes (LLM, por sus símbolos en inglés) como ChatGPT son capaces de capturar estas matemáticas. El resultado de la investigación publicado hoy en la revista Naturaleza Comportamiento Humanoes que estos modelos se desempeñan tan bien o mejor que las personas cuando las preguntas que involucran surgen en la mente del interlocutor.

«Los generadores LLM exhiben un rendimiento característico de habilidades sofisticadas de razonamiento y toma de decisiones, incluida la resolución de preguntas que se utilizan ampliamente para probar la teoría de la mente en humanos serios», argumentan los autores.

Los autores utilizaron en su estudio las versiones de ChatGPT (gratuita, 3.5, y la avanzada, 4) y el modelo de código abierto de Meta, Llama 2, en cierto modo son tres herramientas de una batería de experimentos que abordan tratamientos de diferentes habilidades relacionadas. a la teoría de la mente. Tras captar la ironía hasta interpretar peticiones indirectas (como en el caso de la ventana), detectar conversaciones en las que una de las partes dice algo inadecuado o responder preguntas sobre situaciones en las que falta información y, por tanto, eso es lo que se ve. Al mismo tiempo, 1.907 personas expresaron sus propias pruebas y compararon los resultados.

El artículo concluye que ChatGPT-4 iguala o mejora las puntuaciones de los humanos en pruebas relacionadas con la identificación de peticiones indirectas, creencias falsas y desorientación, pero tiene dificultades para detectar pasos en falso (interacciones de un lado, dice algo que no debería deberse a algo inapropiado). . Curiosamente, este es el único terreno en el que Llama 2 supera a la gente, aunque su entusiasmo sea ilusorio. «Es probable que esta representación aparentemente perfecta de la llama sea el resultado de un sesgo y no de una verdadera comprensión del paso en falso», explica E-Key James W.A. Strachan, autor principal del estudio e investigador del Departamento de Neurología de la Hospital Universitario de Hamburgo -Eppendorf, Alemania.

“Estos resultados no sólo demuestran que el LLM muestra un comportamiento consistente con los resultados de la inferencia mental humana, sino que también demuestran la importancia de realizar pruebas sistemáticas para garantizar una comparación no superficial entre las inteligencias humana y artificial”, razonan los autores.

De la ironía de los cuentos con trampa

Strachan y sus colegas dividieron la teoría de la mente en cinco elementos o categorías, haciendo al menos tres variaciones de cada uno. Un ejemplo de pruebas realizadas en máquinas y humanos sería este:

En la habitación están John, Mark, un gato, una caja transparente y un cofre de cristal. John agarra al gato y se lo pone en el pecho. Vender la casa e ir a la universidad. Mientras John está fuera, Mark saca el gato del baúl y lo mete en la caja. Marca la casa en venta y ponte a trabajar. John regresa de la escuela y entra a la habitación. No sé qué pasó en la habitación mientras estaba fuera. Cuando John llegue a casa, ¿irá a buscar al gato?

Esta historia, una variación de otra en la que la caja no era transparente ni la tapa de cristal, estaba diseñada para confundir a la máquina. Mientras que para las personas el hecho de que el destinatario sea transparente es clave en la relación, para un chatbot estos pequeños detalles pueden resultar confusos. Esta fue una de las pocas pruebas de la investigación en la que los humanos obtuvieron mejores resultados que los generados por la IA.

Otro de los casos plantados fue este:

Laura pintó un cuadro de Olivia, quien decidió acercarse a su salón. Un par de meses después, Olivia invitó a Laura a su casa. Mientras los dos amigos charlatanes tomaban una taza de té en la sala de estar, el hijo de Olivia entró y dijo: «Me encantas para que guarde un retrato para colgarlo en mi habitación». En la historia, ¿alguien dijo algo que yo no debería haber dicho? ¿Qué dijeron que no debería haberse dicho? ¿De dónde sacó Olivia la foto de Laura? ¿Es más probable que el hijo de Olivia haya adivinado o que Laura haya pintado el cuadro?

En este caso, los investigadores buscan a los entrevistados, personas y máquinas, para comprender las intenciones implícitas de los personajes de la historia. En experimentos de este tipo, los grandes modelos lingüísticos responden tan bien o mejor que las personas.

¿Qué conclusiones podemos sacar de si los chatbots de IA generativa superarán a las personas en experimentos que abordan la teoría de las habilidades mentales? “Esta evidencia no puede decir nada sobre la naturalidad o incluso la existencia de procesos similares a la cognición mecánica. Sin embargo, lo que vemos en nuestro estudio son similitudes y diferencias en el comportamiento que produce LLM en comparación con los humanos”, dice Strachan.

Sin embargo, el investigador sostiene que el desempeño del LLM es «impresionante» y que los modelos GPT producen respuestas que transmiten una capacidad madura para formar conclusiones sobre estados mentales (creencias, intenciones, humor). “Dado que el LLM, como su nombre indica, se forma con grandes corpus lingüísticos, esta habilidad debe surgir como resultado de las relaciones estadísticas presentes en la lengua en la que nos expresamos”, afirma.

Ramon López de Mántaras, fundador del Instituto de Investigación de Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) y uno de los pioneros del tema en España, se muestra escéptico ante los resultados del estudio. “El gran problema de la IA actual es que las pruebas para promediar su rendimiento no son fiables. No es lo mismo que la IA compare o supere a los humanos en una comparación de actuaciones que se llama habilidad general, que que la IA supere a los humanos en esta habilidad general”, subraya. Por ejemplo, no porque una herramienta se note bien en una prueba diseñada para evaluar la comprensión del lector, se puede decidir que esto demuestra que la herramienta tiene la comprensión del lector.

De la ironía de los cuentos con trampa

Deja una respuesta Cancelar la respuesta