El incidente de Cloudflare provoca una pérdida masiva de registros

[ad_1]

T. Schneider/shutterstock.com

El 14 de noviembre de 2024, uno lideró Mala configuración En Cloudflare, se perdió el 55 por ciento de los registros de clientes. Esto ocurrió en tres horas y media y fue causado por una sobrecarga en cascada. El error se produjo cuando se importó un archivo de configuración vacío al servicio interno Logfwdr. Luego, el servicio dejó de reenviar registros de clientes. Se activó automáticamente una función de seguridad, pero no se adaptó al número actual de clientes. Failsafe intentó enviar los registros a todos los clientes, lo que provocó una sobrecarga de los sistemas.

La cadena de datos

Específicamente, el orden técnico se ve así:

El incidente de Cloudflare provoca una pérdida masiva de registros: área de datos

Tristán Fincken – IDG

registrofwdr
- Logfwdr es un servicio interno de Cloudflare que recibe registros de eventos de la red global, los procesa y decide qué registros reenviar al receptor de registros según su configuración.
receptor de registros
- El receptor de registros es un golang Servicio escrito de Cloudflare que recibe lotes de registros. Ordena esta información por tipo de evento y propósito antes de pasarla a Buftee como lotes personalizados para su almacenamiento en búfer. El receptor de registros procesa aproximadamente 45 petabytes (PB) de registros de eventos diariamente.
Buftee
- Buftee es un sistema también desarrollado en Golang. Mantiene búferes distribuidos con nombre para crear búferes separados para cada zona o cuenta para trabajos de inserción de registros. Esto permite un procesamiento eficiente. También se admite el cifrado individual y la eliminación de datos de clientes, con más de un millón de buffers administrados en todo el mundo.
Empuje de registro
- Logpush es otro servicio de Golang. Esto lee los protocolos de los buffers Buftee y los reenvía a varios destinos en lotes configurados. Cada día se transfieren más de 600 millones de lotes.

Prevenir futuras cascadas

Aunque el error se solucionó rápidamente, eso no puede ocultar el hecho de que Cloudflare no probó periódicamente si el sistema podía manejar tales eventos. Lo que empeoró las cosas fue que una función de seguridad no estaba configurada correctamente. Cloudflare ya está funcionando según sus propias declaraciones de medidas para evitar problemas similares en el futuro.

[ad_2]

Enlace fuente