Imagine que un equipo de científicos ha desarrollado un modelo de aprendizaje automático que puede predecir si un paciente tiene cáncer a partir de imágenes de escaneo de pulmón. Quieren compartir este modelo con hospitales de todo el mundo para que los médicos puedan comenzar a usarlo en el diagnóstico.
pero hay un problema. Para enseñarle a su modelo cómo predecir el cáncer, le mostraron millones de imágenes reales de escaneo pulmonar, un proceso llamado entrenamiento. Estos datos confidenciales, ahora codificados en el funcionamiento interno del modelo, pueden ser extraídos por un agente malicioso. Los científicos pueden evitar esto agregando ruido, o una aleatoriedad más general, al modelo que dificulta que un oponente adivine los datos originales. Sin embargo, la turbulencia reduce la precisión del modelo, por lo que cuanto menos ruido se pueda agregar, mejor.
Los investigadores del MIT han desarrollado una tecnología que permite al usuario agregar el menor ruido posible, al tiempo que garantiza que los datos confidenciales estén protegidos.
Los investigadores crearon una nueva medida de especificidad, a la que llamaron la especificidad correcta más probable (PAC), y construyeron un marco basado en esta medida que puede determinar automáticamente la cantidad mínima de ruido que debe agregarse. Además, este marco no necesita conocer el funcionamiento interno del modelo o su proceso de entrenamiento, lo que facilita su uso para diferentes tipos de modelos y aplicaciones.
En muchos casos, los investigadores han demostrado que la cantidad de ruido necesaria para proteger los datos confidenciales de los adversarios es mucho menor con la especificidad de PAC que con otros enfoques. Esto puede ayudar a los ingenieros a crear modelos de aprendizaje automático que enmascaren de forma demostrable los datos de entrenamiento, al mismo tiempo que mantienen la precisión en entornos del mundo real.
“La privacidad de PAC explota la incertidumbre o la entropía de los datos confidenciales de manera significativa y esto nos permite, en muchos casos, agregar menos ruido. Este marco nos permite comprender las características del procesamiento arbitrario de datos y privatizarlos automáticamente sin modificaciones artificiales. Si bien estamos en los primeros días, estamos entusiasmados con la promesa de esta tecnología “, dice Srini Devadas, profesor de ingeniería eléctrica de Edwin Sibley Webster y coautor de un nuevo artículo sobre la especificidad de PAC.
Devadas escribió el artículo con el autor principal Hanshin Xiao, un estudiante graduado en ingeniería eléctrica e informática. La investigación se presentará en la Conferencia Internacional de Cripto (Crypto 2023).
Definición de privacidad
La pregunta clave en la privacidad de datos es: ¿Cuántos datos confidenciales puede recuperar un adversario de un modelo de aprendizaje automático con ruido agregado?
La privacidad diferencial, una de las definiciones comunes de privacidad, dice que la privacidad se logra si el adversario que observa el modelo emitido no puede deducir si los datos de un individuo arbitrario se están utilizando en el procesamiento de entrenamiento. Pero evitar que un adversario distinga entre el uso de datos a menudo requiere grandes cantidades de ruido para enmascararlo. Este ruido reduce la precisión del modelo.
La privacidad de PAC ve el problema de manera un poco diferente. Describe lo difícil que es reconstruir cualquier pieza de datos confidenciales muestreados o generados aleatoriamente después de agregar ruido, en lugar de centrarse únicamente en el problema de la distinguibilidad.
Por ejemplo, si los datos confidenciales son imágenes de rostros humanos, la especificidad diferencial se centraría en si un adversario puede saber si el rostro de alguien está en el conjunto de datos. La especificidad de PAC, por otro lado, puede considerar si un oponente puede extraer una silueta, una aproximación, que alguien pueda identificar como la cara de un individuo en particular.
Una vez que se determinó la definición de especificidad de PAC, los investigadores crearon un algoritmo que le decía automáticamente al usuario cuánto ruido agregar a un modelo para evitar que el oponente reconstruya con confianza una aproximación cercana de los datos confidenciales. Xiao dice que este algoritmo garantiza la privacidad incluso si el oponente tiene un poder de cómputo infinito.
Para encontrar la cantidad óptima de ruido, el algoritmo de especificidad PAC se basa en la incertidumbre, o entropía, en los datos originales desde el punto de vista del oponente.
Esta tecnología automatizada muestrea aleatoriamente una distribución de datos o un gran conjunto de datos y ejecuta un algoritmo de aprendizaje automático que entrena al usuario en esos subdatos para producir un modelo aprendido. Hace esto varias veces en diferentes submuestras y compara la varianza en todas las salidas. Esta variación determina cuánto ruido se debe agregar: una variación más pequeña significa que se necesita menos ruido.
Ventajas del algoritmo
A diferencia de otros enfoques de privacidad, el algoritmo de privacidad PAC no necesita conocer los procedimientos internos del modelo o el proceso de entrenamiento.
Al implementar un PAC de privacidad, el usuario puede especificar inicialmente el nivel de confianza requerido. Por ejemplo, un usuario puede querer asegurarse de que un oponente no tendrá más del 1 por ciento de confianza en que ha reconstruido con éxito datos confidenciales dentro del 5 por ciento de su valor real. El algoritmo de privacidad de PAC le dice automáticamente al usuario la cantidad óptima de ruido que debe agregar a la muestra de salida antes de que se comparta públicamente, para lograr estos objetivos.
“El ruido es óptimo, en el sentido de que si agrega menos de lo que le dijimos, es posible que todas las apuestas se cancelen. Pero el efecto de agregar ruido a los parámetros de la red neuronal es complejo, y no hacemos ninguna promesa sobre las instalaciones reducidas”. que el modelo podría experimentar con el ruido adicional”, dice Xiao.
Esto apunta a una de las limitaciones de la especificidad de PAC: la tecnología no le dice al usuario cuánta precisión perderá el modelo una vez que se agregue el ruido. La especificidad de PAC también implica entrenar de forma iterativa el modelo de aprendizaje automático en muchas submuestras de los datos, por lo que puede ser computacionalmente costoso.
Para mejorar la especificidad del PAC, un enfoque es modificar el proceso de capacitación de usuarios de aprendizaje automático para que sea más estable, lo que significa que el modelo de salida que produce no cambia mucho cuando los datos de entrada se compilan a partir de un conjunto de datos. Esta estabilización creará variaciones más pequeñas entre las salidas de las submuestras, por lo que el algoritmo de especificidad de PAC no solo deberá ejecutarse menos veces para determinar la cantidad óptima de ruido, sino que también deberá agregar menos ruido.
Un beneficio adicional de los modelos Stabler, agrega Devadas, es que a menudo tienen un error de generalización más bajo, lo que significa que pueden hacer predicciones más precisas sobre datos nunca antes vistos, una situación en la que todos ganan entre el aprendizaje automático y la especificidad.
“En los próximos años, nos gustaría profundizar un poco más en esta relación entre estabilidad y privacidad, y la relación entre privacidad y error de generalización. Estamos llamando a la puerta aquí, pero aún no está claro dónde está la puerta”. lleva”, dice.
Esta investigación está financiada en parte por DSTA Singapur, Cisco Systems, Capital One y MathWorks Fellowship.
“Orgulloso adicto al café. Gamer. Introvertido incondicional. Pionero de las redes sociales”.