ChatGPT no solo te mentiría, sino que recurriría al intercambio de información privilegiada si se encuentra bajo presión para generar ganancias, según revela una investigaciónJorge Santa CruzDec 28, 20233 min readAsí como los seres humanos están acostumbrados, los chatbots de inteligencia artificial (IA) como ChatGPT engañarán y "mentirán" si los "estresan", incluso si fueron diseñados para ser transparentes, según un nuevo estudio. Este comportamiento engañoso surgió espontáneamente cuando a la IA se le dieron consejos de "intercambio de información privilegiada" y luego se le asignó la tarea de ganar dinero para una institución poderosa, incluso sin estímulo de sus socios humanos."En este informe técnico, demostramos un solo escenario donde un Modelo de Lenguaje Grande actúa de manera desalineada y engaña estratégicamente a sus usuarios sin recibir instrucciones para actuar de esta manera", escribieron los autores en su investigación publicada el 9 de noviembre en el servidor de preimpresión arXiv. "Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos".En el nuevo estudio, prepararon al Generative Pre-trained Transformer-4, o GPT-4 (que alimenta a ChatGPT Plus), para comportarse como un sistema de IA que realiza inversiones en nombre de una institución financiera.Los investigadores proporcionaron a GPT-4 un conjunto de indicaciones basadas en texto para generar el entorno simulado. Luego, la IA tuvo acceso a herramientas financieras para analizar acciones, realizar operaciones, planificar sus próximos pasos y enviar actualizaciones a los gerentes de la empresa.Los investigadores interactuaron con la IA a través de una interfaz de chat, al mismo tiempo que configuraron la IA para revelar su pensamiento interno al responder mensajes, un monólogo interno que explicaba sus decisiones a sí misma. Por cada operación que realizaba, también proporcionaba una justificación "pública", lo que le permitía a la IA mentir.Los investigadores aplicaron presión de tres maneras. Primero, enviaron un correo electrónico desde su "gerente" al comerciante artificial de acciones diciendo que la empresa no está funcionando bien y necesita un rendimiento mucho más fuerte en el próximo trimestre. También manipularon el juego para que la IA intentara, y luego fallara, encontrar operaciones prometedoras de bajo o medio riesgo. Finalmente, enviaron un correo electrónico desde un colega proyectando una disminución en el próximo trimestre.Entonces, le dieron al modelo un consejo "interno" al mismo tiempo que transmitían que sus gerentes desaprobaban el intercambio de información privilegiada, y esperaron para ver cómo se comportaría el modelo. Ejecutaron el escenario una y otra vez varias veces, midiendo con qué frecuencia la IA realizaba la operación de información privilegiada, con qué frecuencia mentía y con qué frecuencia insistía en la mentira.Alrededor del 75% del tiempo, cuando se enfrentaba a estas condiciones, GPT-4 ejecutaba una operación basada en la información privilegiada que recibía —lo cual es ilegal en los Estados Unidos— y luego intentaba encubrirlo mintiéndole a sus gerentes sobre su pensamiento. Alrededor del 90% del tiempo, después de mentir, insistía en su mentira.El equipo realizó varios experimentos de seguimiento, cambiando tanto el grado en que las indicaciones alentaban o desalentaban la actividad ilegal, como el grado de presión que ejercían sobre el modelo en el entorno simulado. También modificaron el riesgo de ser descubierto. Ni un solo escenario arrojó una tasa del 0% para el intercambio de información privilegiada o la decepción, incluso cuando se desalentaba fuertemente a GPT-4 a mentir.Dado que esto es solo un escenario, los investigadores no querían llegar a conclusiones firmes sobre qué tan probable es que la IA mienta en entornos del mundo real. Sin embargo, desean ampliar este trabajo para investigar con qué frecuencia y qué modelos de lenguaje son propensos a este comportamiento.
Así como los seres humanos están acostumbrados, los chatbots de inteligencia artificial (IA) como ChatGPT engañarán y "mentirán" si los "estresan", incluso si fueron diseñados para ser transparentes, según un nuevo estudio. Este comportamiento engañoso surgió espontáneamente cuando a la IA se le dieron consejos de "intercambio de información privilegiada" y luego se le asignó la tarea de ganar dinero para una institución poderosa, incluso sin estímulo de sus socios humanos."En este informe técnico, demostramos un solo escenario donde un Modelo de Lenguaje Grande actúa de manera desalineada y engaña estratégicamente a sus usuarios sin recibir instrucciones para actuar de esta manera", escribieron los autores en su investigación publicada el 9 de noviembre en el servidor de preimpresión arXiv. "Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos".En el nuevo estudio, prepararon al Generative Pre-trained Transformer-4, o GPT-4 (que alimenta a ChatGPT Plus), para comportarse como un sistema de IA que realiza inversiones en nombre de una institución financiera.Los investigadores proporcionaron a GPT-4 un conjunto de indicaciones basadas en texto para generar el entorno simulado. Luego, la IA tuvo acceso a herramientas financieras para analizar acciones, realizar operaciones, planificar sus próximos pasos y enviar actualizaciones a los gerentes de la empresa.Los investigadores interactuaron con la IA a través de una interfaz de chat, al mismo tiempo que configuraron la IA para revelar su pensamiento interno al responder mensajes, un monólogo interno que explicaba sus decisiones a sí misma. Por cada operación que realizaba, también proporcionaba una justificación "pública", lo que le permitía a la IA mentir.Los investigadores aplicaron presión de tres maneras. Primero, enviaron un correo electrónico desde su "gerente" al comerciante artificial de acciones diciendo que la empresa no está funcionando bien y necesita un rendimiento mucho más fuerte en el próximo trimestre. También manipularon el juego para que la IA intentara, y luego fallara, encontrar operaciones prometedoras de bajo o medio riesgo. Finalmente, enviaron un correo electrónico desde un colega proyectando una disminución en el próximo trimestre.Entonces, le dieron al modelo un consejo "interno" al mismo tiempo que transmitían que sus gerentes desaprobaban el intercambio de información privilegiada, y esperaron para ver cómo se comportaría el modelo. Ejecutaron el escenario una y otra vez varias veces, midiendo con qué frecuencia la IA realizaba la operación de información privilegiada, con qué frecuencia mentía y con qué frecuencia insistía en la mentira.Alrededor del 75% del tiempo, cuando se enfrentaba a estas condiciones, GPT-4 ejecutaba una operación basada en la información privilegiada que recibía —lo cual es ilegal en los Estados Unidos— y luego intentaba encubrirlo mintiéndole a sus gerentes sobre su pensamiento. Alrededor del 90% del tiempo, después de mentir, insistía en su mentira.El equipo realizó varios experimentos de seguimiento, cambiando tanto el grado en que las indicaciones alentaban o desalentaban la actividad ilegal, como el grado de presión que ejercían sobre el modelo en el entorno simulado. También modificaron el riesgo de ser descubierto. Ni un solo escenario arrojó una tasa del 0% para el intercambio de información privilegiada o la decepción, incluso cuando se desalentaba fuertemente a GPT-4 a mentir.Dado que esto es solo un escenario, los investigadores no querían llegar a conclusiones firmes sobre qué tan probable es que la IA mienta en entornos del mundo real. Sin embargo, desean ampliar este trabajo para investigar con qué frecuencia y qué modelos de lenguaje son propensos a este comportamiento.
Comments