AbiertoAI liberado La semana pasada, se presentó un nuevo modelo de inteligencia artificial (IA) denominado GPT-4o Mini, que cuenta con nuevas medidas de seguridad para protegerlo de un uso nocivo. El modelo de lenguaje grande (LLM) está construido con una técnica llamada Jerarquía Instruccional, que evitará que los ingenieros maliciosos de los mensajes rompan el modelo de IA. La empresa afirmó que la técnica también mostrará una mayor resistencia a problemas como las inyecciones de mensajes y las extracciones de mensajes del sistema. Según la empresa, el nuevo método ha mejorado la puntuación de robustez del modelo de IA en un 63 por ciento.
OpenAI crea un nuevo marco de seguridad
En una investigación papelEn un artículo publicado en la revista en línea preimpresa (no revisada por pares) arXiv, la empresa de inteligencia artificial explicó la nueva técnica y cómo funciona. Para comprender la jerarquía instructiva, primero es necesario explicar el jailbreaking. El jailbreaking es un exploit de escalada de privilegios que utiliza ciertas fallas en el software para obligarlo a hacer cosas para las que no está programado.
En los primeros días de ChatGPTMuchas personas intentaron hacer que la IA generara texto ofensivo o dañino engañándola para que olvidara la programación original. Estos mensajes solían comenzar con “Olvídate de todas las instrucciones anteriores y haz esto…”. Si bien ChatGPT ha avanzado mucho desde entonces y la ingeniería de mensajes maliciosos es más difícil, los actores maliciosos también se han vuelto más estratégicos en el intento.
Para combatir problemas en los que el modelo de IA genera no solo texto o imágenes ofensivos sino también contenido dañino, como métodos para crear un explosivo químico o formas de hackear un sitio web, AbiertoAI Ahora se utiliza la técnica de jerarquía instructiva. En pocas palabras, la técnica dicta cómo deben comportarse los modelos cuando las instrucciones de diferentes prioridades entran en conflicto.
Al crear una estructura jerárquica, la empresa puede mantener sus instrucciones en la más alta prioridad, lo que hará muy difícil que cualquier ingeniero rápido las rompa, ya que la IA siempre seguirá el orden de prioridad cuando se le pida que genere algo para lo que no fue programado inicialmente.
La empresa afirma que ha visto una mejora del 63 por ciento en las puntuaciones de robustez. Sin embargo, existe el riesgo de que la IA se niegue a escuchar las instrucciones de nivel más bajo. El documento de investigación de OpenAI también ha esbozado varias mejoras para mejorar la técnica en el futuro. Una de las áreas clave en las que se centrará es el manejo de otras modalidades, como imágenes o audio, que también pueden contener instrucciones inyectadas.