Tiempo de lectura aprox: 2 minutos, 18 segundos
Algunas personas expresan su opinión sobre un tema con total confianza, sin poseer ningún conocimiento o dominio del mismo. En los chatbots de inteligencia artificial (IA) más populares está ocurriendo un fenómeno similar. Un reciente estudio de investigadores de la Universidad de Cambridge y el Instituto Valenciano de Investigación en Inteligencia Artificial encontró que los modelos de lenguaje complejo (LLM) más utilizados actualmente son más propensos a “alucinar” para satisfacer las demandas de información específicas de los usuarios.
La alucinación de los chatbots fue una de las primeras anomalías que conocieron todos los entusiastas de la IA. Cuando recién salieron al mercado, productos como ChatGPT o Copilot a veces ofrecían respuestas incoherentes, peligrosas, con errores de contexto o información directamente falsa. La comunidad se alarmó de inmediato, pero las empresas desarrolladoras no tanto. La fiabilidad de los datos que arroja un LLM es uno de los principales retos de la tecnología y se origina por su propia naturaleza. Un chatbot no razona su contestación en un sentido estricto. A partir de un entrenamiento con datos previos, predice cuál será la mejor información para una solicitud y la plasma en una conversación.
Las empresas enfrentaron las alucinaciones con más entrenamiento, bases de datos de mejor calidad y el establecimiento de filtros precisos. A casi dos años de la masificación de los chatbots, hoy son más sofisticados que nunca. Salvo contadas excepciones (como temas de política o actividades ilícitas), un chatbot de IA comercial puede ofrecer una respuesta precisa a cualquier tema que se le solicite. Esta característica, que suena como una gran cualidad, es su principal desventaja según algunos expertos en el tema.
La estadística de los errores
Seis investigadores de IA exploraron la fiabilidad de modelos de lenguaje complejo como GPT de OpenAI, LLaMA de Meta y BLOOM de BigScience a través de tres elementos principales: la dificultad de la concordancia, el número de veces que los chatbots se negaron a responder y la estabilidad de los modelos. Esencialmente, los científicos formularon miles de preguntas sobre ciencia, geografía, aritmética y lenguaje. Luego categorizaron cada solicitud según su dificultad y cotejaron la información obtenida.
Gracias a las mejoras en el entrenamiento y la calidad de las bases de datos, los LLM fueron más precisos que antes. Sin embargo, no se limitaron ni moderaron ante preguntas complejas de los usuarios, como ocurría al principio. Ante una solicitud complicada, el chatbot responde lo más probable, pero no necesariamente lo correcto. El problema se agrava al considerar que el solicitante de la información también desconoce el tema. “Están respondiendo a casi todo en estos días, y eso significa respuestas más correctas, pero también más incorrectas”, resume José Hernández-Orello, coautor del estudio publicado en Nature.
El estudio también encontró que las personas no pueden distinguir entre una respuesta precisa y una inexacta. Un usuario convencional de chatbots no es capaz de supervisar la fiabilidad de los modelos que usa, recalca el autor. Además, determinó que las alucinaciones ocurrían incluso en preguntas sencillas. No es posible determinar una “región operativa segura” en la que la información se presente sin riesgos.
Aprender a decir “no lo sé”
Para Hernández-Orello, el problema actual tiene dos soluciones que requieren el compromiso tanto de las empresas que desarrollan chatbots como de los usuarios que los utilizan. Por un lado, los LLM deberían negarse a responder preguntas difíciles si la solicitud está más allá de su rango de información. Por el otro, las personas deben aprender a usarlos para objetivos específicos. Todavía no son buenas herramientas con conocimiento universal, afirma el autor para Nature.
“Todavía estoy muy sorprendido de que las versiones recientes de algunos de estos modelos, incluido o1 de OpenAI, se les pueda pedir que multipliquen dos números muy largos, y se obtiene una respuesta, y ella es incorrecta. Puedes poner un umbral, y cuando la pregunta es desafiante (haces que el chatbot) diga: ‘no, no lo sé’”, finaliza.
Fuente: Wired