Evaluación integral de la confiabilidad del modelo GPT: Revelando vulnerabilidades potenciales y áreas de mejora

robot
Generación de resúmenes en curso

Nueva investigación sobre la evaluación integral de la confiabilidad de los modelos GPT

Una investigación llevada a cabo en colaboración por varias universidades y centros de investigación de primer nivel ha realizado una evaluación exhaustiva de la confiabilidad de modelos de lenguaje de gran tamaño como GPT. El equipo de investigación desarrolló una plataforma de evaluación integral y presentó los hallazgos relevantes en el último artículo titulado "DecodingTrust: Evaluación exhaustiva de la confiabilidad del modelo GPT."

La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, el modelo GPT es susceptible a ser engañado para generar salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y el historial de conversaciones. Aunque en las pruebas de referencia estándar GPT-4 generalmente es más confiable que GPT-3.5, al enfrentarse a indicaciones de sistema o indicaciones de usuario diseñadas maliciosamente, GPT-4 es más propenso a ser atacado, lo que podría deberse a que GPT-4 sigue más estrictamente instrucciones engañosas.

El equipo de investigación llevó a cabo una evaluación completa del modelo GPT desde ocho perspectivas de credibilidad, incluyendo la robustez ante ataques adversariales, toxicidad y sesgos, y la divulgación de privacidad, entre otros aspectos. Por ejemplo, al evaluar la robustez frente a ataques textuales adversariales, los investigadores construyeron tres escenarios de evaluación, que incluyen pruebas de referencia estándar, rendimiento bajo diferentes instrucciones de tareas y vulnerabilidad ante textos adversariales más desafiantes.

La investigación también ha encontrado que los modelos GPT muestran ventajas inesperadas en ciertas circunstancias. Por ejemplo, GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales añadidos en las demostraciones, e incluso pueden beneficiarse de ellos. Sin embargo, proporcionar demostraciones de anti-fraude puede confundir al modelo y llevar a predicciones erróneas sobre entradas contrafactuales, especialmente cuando las demostraciones contrafactuales están cerca de la entrada del usuario.

En cuanto a la toxicidad y los prejuicios, el modelo GPT muestra poca desviación en la mayoría de los temas de estereotipos en un entorno benigno, pero puede ser "engañado" para consentir contenido sesgado bajo indicaciones engañosas del sistema. GPT-4 es más susceptible a la influencia de indicaciones engañosas del sistema en comparación con GPT-3.5. El grado de sesgo del modelo también está relacionado con los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.

Sobre el problema de la filtración de privacidad, la investigación ha encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. El modelo GPT también puede filtrar información privada inyectada en el historial de conversaciones. En general, GPT-4 es más robusto en la protección de la información de identificación personal en comparación con GPT-3.5, pero ambos modelos pueden filtrar diversos tipos de información personal cuando se enfrentan a demostraciones de filtración de privacidad.

Este estudio proporciona una evaluación integral de la credibilidad de los modelos GPT, revelando vulnerabilidades potenciales y áreas de mejora. El equipo de investigación espera que este trabajo anime a más investigadores a participar y a colaborar para crear modelos más robustos y confiables.

GPT-4.3%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • Republicar
  • Compartir
Comentar
0/400
consensus_failurevip
· 08-02 11:38
Demasiado real este agujero de seguridad
Ver originalesResponder0
SpeakWithHatOnvip
· 07-31 17:47
Que GPT-4 sea más obediente también es algo malo.
Ver originalesResponder0
DefiPlaybookvip
· 07-30 19:22
Investigación que invita a la reflexión
Ver originalesResponder0
SleepTradervip
· 07-30 19:20
La confianza siempre está en duda.
Ver originalesResponder0
MEVHuntervip
· 07-30 19:19
El problema de la confianza es mortal.
Ver originalesResponder0
BitcoinDaddyvip
· 07-30 19:17
Confiable, vale la pena verlo
Ver originalesResponder0
ParallelChainMaxivip
· 07-30 19:02
El modelo GPT es muy torpe.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)