El aprendizaje federado marca un hito en la mejora del entrenamiento de IA en modelos colaborativos. Está cambiando el enfoque principal hacia aprendizaje automático, alejándose de los tradicionales métodos de formación centralizados hacia otros más descentralizados. Los datos están dispersos y debemos aprovecharlos como datos de entrenamiento donde existan.
Este paradigma no es nada nuevo. Estuve jugando con eso en la década de 1990. Lo viejo vuelve a ser nuevo… otra vez. El aprendizaje federado permite el entrenamiento colaborativo de modelos de aprendizaje automático en múltiples dispositivos o servidores, aprovechando sus datos colectivos sin necesidad de intercambiarlos o centralizarlos. ¿Por qué debería importarte? Seguridad y privacidad, por eso.
Estos son los principios básicos del aprendizaje federado:
- Descentralización de datos: A diferencia de los métodos convencionales que requieren que los datos estén centralizados, el aprendizaje federado distribuye el modelo a la fuente de datos, utilizando así los datos donde existen. Por ejemplo, si guardamos datos en un robot de fracturamiento para monitorear las operaciones, no hay necesidad de migrar esos datos a algún repositorio de datos centralizado. Lo aprovechamos directamente del robot. (Este es un caso de uso real para mí).
- Preservación de la privacidad: El aprendizaje federado mejora la privacidad del usuario desde su diseño porque los datos permanecen en los dispositivos de los usuarios, como teléfonos, tabletas, computadoras, automóviles o relojes inteligentes. Esto minimiza la exposición de información confidencial ya que pasamos directamente del dispositivo al modelo de IA.
- Aprendizaje colaborativo: Un modelo es capaz de aprender de diversos conjuntos de datos en diferentes dispositivos o servidores, naturalmente.
- Utilización eficiente de datos: El aprendizaje federado es particularmente útil para dominios problemáticos con datos masivos, distribuidos o confidenciales. Optimiza el uso de los datos disponibles respetando las políticas de privacidad nativas del conjunto de datos distribuidos específico.
Estos factores son útiles para la IA y ofrecen mayor seguridad y privacidad. Además, no almacenamos los mismos datos en dos lugares diferentes, lo cual es una práctica común hoy en día en la construcción de nuevos sistemas de IA, como IA generativa.
El marco RoPPFL
El aprendizaje federado ofrece la prometedora perspectiva de la capacitación de modelos colaborativos en múltiples dispositivos o servidores sin necesidad de centralizar los datos. Sin embargo, todavía existen preocupaciones de seguridad y privacidad, principalmente el riesgo de fuga de privacidad de conjuntos de datos locales y la amenaza de ataques de envenenamiento del modelo de IA por parte de clientes maliciosos.
¿Qué nos salvará? Naturalmente, cuando surge un nuevo problema, debemos crear soluciones únicas con nombres y siglas interesantes. Déjame presentarte a la Marco de aprendizaje federado (RoPPFL) sólido y que preserva la privacidaduna solución para abordar los desafíos inherentes asociados con el aprendizaje federado en computación de borde ambientes.
El marco RoPPFL introduce una combinación de técnicas de privacidad diferencial local (LDP) y de agregación ponderada robusta (RoWA) basadas en similitudes. LDP protege la privacidad de los datos agregando ruido calibrado a las actualizaciones del modelo. Esto hace que sea extremadamente difícil para los atacantes inferir puntos de datos individuales, lo cual es un ataque de seguridad común contra los sistemas de inteligencia artificial.
RoWA mejora la resistencia del sistema contra ataques de envenenamiento al agregar actualizaciones de modelos en función de su similitud, mitigando el impacto de cualquier intervención maliciosa. RoPPFL utiliza una estructura de aprendizaje federada jerárquica. Esta estructura organiza el proceso de capacitación del modelo en diferentes capas, incluido un servidor en la nube, nodos perimetrales y dispositivos cliente (por ejemplo, teléfonos inteligentes).
Privacidad y seguridad mejoradas
RoPPFL representa un paso en la dirección correcta para un arquitecto de nube que necesita lidiar con estas cosas todo el tiempo. Además, hoy en día el 80% de mi trabajo es IA generativa, por eso lo menciono, aunque roza la jerga académica.
Este modelo aborda los desafíos simultáneos de seguridad y privacidad, incluido el uso de dispositivos periféricos, como teléfonos inteligentes y otros dispositivos personales, como fuentes de datos de entrenamiento para sistemas de inteligencia artificial ávidos de datos. El modelo puede combinar la privacidad diferencial local con un mecanismo de agregación único. El marco RoPPFL allana el camino para que exista y prospere el paradigma de capacitación en modelos colaborativos sin comprometer la protección de datos y la privacidad, que están en gran riesgo con el uso de la IA.
Los autores del artículo al que hice referencia anteriormente también son los creadores del marco. Así que asegúrese de leerlo si está interesado en aprender más sobre este tema.
Menciono esto porque necesitamos pensar en formas más inteligentes de hacer las cosas si queremos diseñar, construir y operar sistemas de inteligencia artificial que se coman nuestros datos como desayuno. Necesitamos descubrir cómo construir estos sistemas de IA (ya sea en la nube o no) de manera que no causen daño.
Dada la situación actual en la que las empresas están implementando sistemas de IA generativa primero y planteando las preguntas importantes después, necesitamos una reflexión más sólida sobre cómo construimos, implementamos y aseguramos estas soluciones para que se conviertan en prácticas comunes. En este momento, apuesto a que muchos de ustedes que están construyendo sistemas de inteligencia artificial que utilizan datos distribuidos nunca han oído hablar de este marco. Esta es una de las muchas ideas actuales y futuras que es necesario comprender.
Copyright © 2024 IDG Communications, Inc.