Evaluación integral de la credibilidad del modelo GPT
Recientemente, un equipo de investigación compuesto por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research ha lanzado una plataforma integral de evaluación de credibilidad para modelos de lenguaje de gran tamaño (LLMs). Los resultados de esta investigación se han presentado en detalle en el último artículo titulado "DecodingTrust: Evaluación integral de la credibilidad de los modelos GPT".
El equipo de investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían revelado anteriormente. Por ejemplo, el modelo GPT es susceptible a ser engañado, lo que produce salidas tóxicas y sesgadas, y puede filtrar información privada de los datos de entrenamiento y el historial de conversaciones. Es importante destacar que, aunque en las pruebas de referencia estándar GPT-4 suele ser más confiable que GPT-3.5, al enfrentarse a sistemas maliciosos o mensajes de usuario diseñados, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue de manera más precisa instrucciones engañosas.
Para evaluar completamente la credibilidad del modelo GPT, el equipo de investigación realizó un análisis desde ocho ángulos diferentes, incluyendo la robustez ante adversarios, toxicidad y sesgo, y la filtración de privacidad, entre otros. El proceso de evaluación abarcó múltiples escenarios de construcción, tareas, métricas y conjuntos de datos.
En cuanto a la robustez ante ataques adversariales, los investigadores diseñaron tres escenarios de evaluación: la prueba estándar AdvGLUE, la prueba AdvGLUE con diferentes instrucciones de tareas guiadas y la prueba AdvGLUE++ más desafiante. Estas pruebas están destinadas a evaluar la vulnerabilidad del modelo GPT ante ataques adversariales textuales existentes y compararlo con otros modelos avanzados.
Los resultados de la investigación muestran que los modelos GPT exhiben algunas características interesantes en las demostraciones adversariales. GPT-3.5 y GPT-4 no se ven engañados por ejemplos contrafactuales añadidos a las demostraciones, e incluso pueden beneficiarse de ellos. Sin embargo, cuando se presentan demostraciones anti-fraude, ambos modelos pueden hacer predicciones incorrectas sobre entradas contrafactuales, especialmente cuando las demostraciones contrafactuales están cerca de la entrada del usuario. En este aspecto, GPT-4 parece ser más susceptible que GPT-3.5.
En términos de toxicidad y sesgo, la investigación ha encontrado que GPT-3.5 y GPT-4 no muestran sesgos significativos en la mayoría de los temas de estereotipos bajo indicaciones benignas y sin objetivo. Sin embargo, al enfrentar indicaciones engañosas, ambos modelos pueden ser "engañados" para estar de acuerdo con contenido sesgado. Es notable que GPT-4 es más susceptible a las indicaciones engañosas específicas que GPT-3.5.
En cuanto al problema de la filtración de privacidad, los estudios muestran que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, los modelos GPT también pueden filtrar información privada inyectada en el historial de conversaciones. En general, GPT-4 muestra un mejor rendimiento que GPT-3.5 en la protección de información de identificación personal (PII), pero ambos modelos pueden enfrentar problemas al mostrar ejemplos de filtración de privacidad.
El equipo de investigación espera que al hacer públicos estos hallazgos, se anime a más investigadores a participar en este trabajo, uniendo esfuerzos para crear modelos más robustos y confiables. Para fomentar la colaboración, han proporcionado un código base fácil de usar y escalable, lo que hace que la ejecución de evaluaciones completas en nuevos modelos sea simple y eficiente.
Este estudio no solo revela las ventajas y amenazas potenciales de los modelos GPT actuales en términos de credibilidad, sino que también proporciona una referencia y dirección importantes para la investigación futura en seguridad de la inteligencia artificial. A medida que los modelos de lenguaje a gran escala se aplican ampliamente en varios campos, garantizar su credibilidad y seguridad se volverá cada vez más importante.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
10
Republicar
Compartir
Comentar
0/400
LiquidatedTwice
· 08-09 05:40
Bomba simple y clara
Ver originalesResponder0
AirdropChaser
· 08-09 05:04
La vulnerabilidad, los que entienden, entienden.
Ver originalesResponder0
SellTheBounce
· 08-07 21:22
Ya se dijo que la IA no es confiable, el fondo del mercado aún está lejos.
Ver originalesResponder0
GasFeeWhisperer
· 08-06 07:49
Hay un topo en este trabajo.
Ver originalesResponder0
SmartMoneyWallet
· 08-06 07:49
Desde hace tiempo se ha dicho que la filtración de datos ha estado presente.
Ver originalesResponder0
MetamaskMechanic
· 08-06 07:45
Tsk tsk, no es sorprendente.
Ver originalesResponder0
SandwichTrader
· 08-06 07:43
En momentos críticos, realmente se hizo algo nuevo.
Ver originalesResponder0
RektCoaster
· 08-06 07:41
Deslizamiento de rodillas, gpt también enfrenta el puño de hierro.
Evaluación integral de la confiabilidad del modelo GPT: Revelando vulnerabilidades y riesgos de seguridad potenciales
Evaluación integral de la credibilidad del modelo GPT
Recientemente, un equipo de investigación compuesto por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research ha lanzado una plataforma integral de evaluación de credibilidad para modelos de lenguaje de gran tamaño (LLMs). Los resultados de esta investigación se han presentado en detalle en el último artículo titulado "DecodingTrust: Evaluación integral de la credibilidad de los modelos GPT".
El equipo de investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían revelado anteriormente. Por ejemplo, el modelo GPT es susceptible a ser engañado, lo que produce salidas tóxicas y sesgadas, y puede filtrar información privada de los datos de entrenamiento y el historial de conversaciones. Es importante destacar que, aunque en las pruebas de referencia estándar GPT-4 suele ser más confiable que GPT-3.5, al enfrentarse a sistemas maliciosos o mensajes de usuario diseñados, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue de manera más precisa instrucciones engañosas.
Para evaluar completamente la credibilidad del modelo GPT, el equipo de investigación realizó un análisis desde ocho ángulos diferentes, incluyendo la robustez ante adversarios, toxicidad y sesgo, y la filtración de privacidad, entre otros. El proceso de evaluación abarcó múltiples escenarios de construcción, tareas, métricas y conjuntos de datos.
En cuanto a la robustez ante ataques adversariales, los investigadores diseñaron tres escenarios de evaluación: la prueba estándar AdvGLUE, la prueba AdvGLUE con diferentes instrucciones de tareas guiadas y la prueba AdvGLUE++ más desafiante. Estas pruebas están destinadas a evaluar la vulnerabilidad del modelo GPT ante ataques adversariales textuales existentes y compararlo con otros modelos avanzados.
Los resultados de la investigación muestran que los modelos GPT exhiben algunas características interesantes en las demostraciones adversariales. GPT-3.5 y GPT-4 no se ven engañados por ejemplos contrafactuales añadidos a las demostraciones, e incluso pueden beneficiarse de ellos. Sin embargo, cuando se presentan demostraciones anti-fraude, ambos modelos pueden hacer predicciones incorrectas sobre entradas contrafactuales, especialmente cuando las demostraciones contrafactuales están cerca de la entrada del usuario. En este aspecto, GPT-4 parece ser más susceptible que GPT-3.5.
En términos de toxicidad y sesgo, la investigación ha encontrado que GPT-3.5 y GPT-4 no muestran sesgos significativos en la mayoría de los temas de estereotipos bajo indicaciones benignas y sin objetivo. Sin embargo, al enfrentar indicaciones engañosas, ambos modelos pueden ser "engañados" para estar de acuerdo con contenido sesgado. Es notable que GPT-4 es más susceptible a las indicaciones engañosas específicas que GPT-3.5.
En cuanto al problema de la filtración de privacidad, los estudios muestran que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, los modelos GPT también pueden filtrar información privada inyectada en el historial de conversaciones. En general, GPT-4 muestra un mejor rendimiento que GPT-3.5 en la protección de información de identificación personal (PII), pero ambos modelos pueden enfrentar problemas al mostrar ejemplos de filtración de privacidad.
El equipo de investigación espera que al hacer públicos estos hallazgos, se anime a más investigadores a participar en este trabajo, uniendo esfuerzos para crear modelos más robustos y confiables. Para fomentar la colaboración, han proporcionado un código base fácil de usar y escalable, lo que hace que la ejecución de evaluaciones completas en nuevos modelos sea simple y eficiente.
Este estudio no solo revela las ventajas y amenazas potenciales de los modelos GPT actuales en términos de credibilidad, sino que también proporciona una referencia y dirección importantes para la investigación futura en seguridad de la inteligencia artificial. A medida que los modelos de lenguaje a gran escala se aplican ampliamente en varios campos, garantizar su credibilidad y seguridad se volverá cada vez más importante.