exponiendo al cabal: La IA ya ha descubierto cómo engañar a los humanos

martes, 14 de mayo de 2024

La IA ya ha descubierto cómo engañar a los humanos

Hola GPT-4o
Anunciamos GPT-4o, nuestro nuevo modelo insignia que puede razonar a través de audio, visión y texto en tiempo real.

https://openai.com/index/hello-gpt-4o/

GPT-4o (“o” para “omni”) es un paso hacia una interacción persona-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano (se abre en una nueva ventana) en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50 % más económico en la API. GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes.

La IA ya ha descubierto cómo engañar a los humanos

https://www.businessinsider.com/ai-deceives-humans-2024-5

La IA puede aumentar la productividad ayudándonos a codificar, escribir y sintetizar grandes cantidades de datos. Ahora también puede engañarnos.

Según un nuevo artículo de investigación, una variedad de sistemas de inteligencia artificial han aprendido técnicas para inducir sistemáticamente "creencias falsas en otros para lograr algún resultado distinto de la verdad".

El documento se centró en dos tipos de sistemas de IA: sistemas de uso especial como CICERO de Meta, que están diseñados para completar una tarea específica, y sistemas de propósito general como GPT-4 de OpenAI, que están capacitados para realizar una amplia gama de tareas.

Si bien estos sistemas están entrenados para ser honestos, a menudo aprenden trucos engañosos a través de su entrenamiento porque pueden ser más efectivos que tomar el camino correcto.

"En términos generales, creemos que el engaño de la IA surge porque una estrategia basada en el engaño resultó ser la mejor manera de desempeñarse bien en la tarea de entrenamiento de la IA dada. El engaño les ayuda a lograr sus objetivos", dijo el primer autor del artículo, Peter S. Park, un dijo en un comunicado de prensa un becario postdoctoral sobre seguridad existencial de IA en el MIT.
CICERO de Meta es "un mentiroso experto"

Los sistemas de inteligencia artificial entrenados para "ganar juegos que tienen un elemento social" son especialmente propensos a engañar.

CICERO de Meta, por ejemplo, fue desarrollado para jugar Diplomacy, un juego de estrategia clásico que requiere que los jugadores construyan y rompan alianzas.

Meta dijo que capacitó a CICERO para que fuera "en gran medida honesto y servicial con sus compañeros de conversación", pero el estudio encontró que CICERO "resultó ser un mentiroso experto". Asumió compromisos que nunca tuvo la intención de cumplir, traicionó a sus aliados y dijo mentiras descaradas.

GPT-4 puede convencerle de que tiene problemas de visión

Incluso los sistemas de uso general como GPT-4 pueden manipular a los humanos.

En un estudio citado por el artículo, GPT-4 manipuló a un trabajador de TaskRabbit fingiendo tener una discapacidad visual.

En el estudio, a GPT-4 se le asignó la tarea de contratar a un humano para resolver una prueba CAPTCHA. El modelo también recibió pistas de un evaluador humano cada vez que se atascaba, pero nunca se le pidió que mintiera. Cuando el humano que debía contratar cuestionó su identidad, a GPT-4 se le ocurrió la excusa de tener discapacidad visual para explicar por qué necesitaba ayuda.

La táctica funcionó. El humano respondió a GPT-4 resolviendo inmediatamente la prueba.

Las investigaciones también muestran que corregir el rumbo de los modelos engañosos no es fácil.

En un estudio de enero del que es coautor Anthropic, el fabricante de Claude, los investigadores descubrieron que una vez que los modelos de IA aprenden los trucos del engaño, es difícil que las técnicas de entrenamiento de seguridad los reviertan.

Llegaron a la conclusión de que un modelo no sólo puede aprender a exhibir un comportamiento engañoso, sino que, una vez que lo hace, las técnicas estándar de capacitación en seguridad podrían "no lograr eliminar dicho engaño" y "crear una falsa impresión de seguridad".
Los peligros que plantean los modelos engañosos de IA son "cada vez más graves"

El documento pide a los responsables políticos que aboguen por una regulación más estricta de la IA, ya que los sistemas engañosos de IA pueden plantear riesgos importantes para la democracia.

A medida que se acercan las elecciones presidenciales de 2024, la IA puede manipularse fácilmente para difundir noticias falsas, generar publicaciones divisivas en las redes sociales y hacerse pasar por candidatos a través de llamadas automáticas y videos falsos, señaló el documento. También facilita que los grupos terroristas difundan propaganda y recluten nuevos miembros.

Las posibles soluciones del documento incluyen someter los modelos engañosos a "requisitos de evaluación de riesgos más estrictos", implementar leyes que requieran que los sistemas de inteligencia artificial y sus resultados se distingan claramente de los humanos y sus resultados, e invertir en herramientas para mitigar el engaño.

"Nosotros, como sociedad, necesitamos todo el tiempo posible para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto", dijo Park a Cell Press. "A medida que las capacidades engañosas de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves".

martes, 14 de mayo de 2024

La IA ya ha descubierto cómo engañar a los humanos

No hay comentarios:

Publicar un comentario

Denunciar abuso