Investigadores antrópicos descubren que los modelos de IA se pueden entrenar para engañar
La mayoría de los humanos aprenden la habilidad de engañar a otros humanos. Entonces, ¿pueden los modelos de IA aprender lo mismo? Sí, la respuesta parece… y, aterradoramente, son excepcionalmente buenos en eso. Un reciente estudiar en coautoría con investigadores...