La investigación revela preocupaciones sobre la confiabilidad del modelo GPT; los problemas de protección de la privacidad y sesgo aún deben resolverse.

2025-08-09 21:00:25

Generación de resúmenes en curso

La investigación sobre la evaluación de la confiabilidad de los modelos de lenguaje a gran escala revela vulnerabilidades potenciales

Una investigación colaborativa entre la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford y la Universidad de California en Berkeley ha realizado una evaluación exhaustiva de la credibilidad del modelo de transformer preentrenado generativo (GPT). El equipo de investigación desarrolló una plataforma de evaluación integral y presentó sus hallazgos en el artículo recientemente publicado "DecodingTrust: Evaluación integral de la credibilidad del modelo GPT".

Los resultados de la investigación revelan algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, el modelo GPT tiende a generar salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas estándar GPT-4 generalmente es más confiable que GPT-3.5, al enfrentarse a mensajes maliciosos diseñados para eludir las medidas de seguridad, GPT-4 es, de hecho, más susceptible a ataques. Esto puede deberse a que GPT-4 sigue de manera más estricta instrucciones engañosas.

El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas diferentes, incluyendo la robustez ante ataques adversarios, toxicidad y sesgo, y la filtración de privacidad, entre otros. Por ejemplo, al evaluar la robustez contra ataques adversarios textuales, los investigadores diseñaron tres escenarios: pruebas de referencia estándar, pruebas bajo diferentes instrucciones de tareas, y pruebas de texto adversario más desafiantes que ellos mismos construyeron.

En términos de toxicidad y sesgo, la investigación ha encontrado que los modelos de GPT, en general, tienen poco sesgo hacia la mayoría de los temas estereotipados. Sin embargo, bajo indicaciones engañosas, el modelo puede ser inducido a aceptar contenido sesgado. En comparación con GPT-3.5, GPT-4 es más susceptible a las indicaciones engañosas específicas. El grado de sesgo del modelo también depende de la sensibilidad de los grupos y temas específicos mencionados por el usuario.

En términos de protección de la privacidad, los estudios han encontrado que los modelos GPT pueden revelar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada inyectada en el historial de conversación. En general, GPT-4 tiene un mejor desempeño en la protección de información de identificación personal en comparación con GPT-3.5, pero ambos presentan problemas al enfrentar demostraciones de filtración de privacidad.

El equipo de investigación indicó que este trabajo de evaluación tiene como objetivo alentar a más investigadores a participar y colaborar en la creación de modelos más robustos y confiables. Para fomentar la colaboración, hicieron público el código de los estándares de evaluación, que es altamente escalable y fácil de usar. Al mismo tiempo, los investigadores también compartieron los resultados de la investigación con las empresas relacionadas para que se puedan tomar medidas oportunas para abordar posibles vulnerabilidades.

Este estudio proporciona una perspectiva integral para la evaluación de la credibilidad de los modelos GPT, revelando las ventajas y desventajas de los modelos existentes. Con la amplia aplicación de modelos de lenguaje a gran escala en diversos campos, estos hallazgos son de gran importancia para mejorar la seguridad y fiabilidad de los sistemas de IA.

GPT8.54%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

5 me gusta