Nghiên cứu đánh giá độ tin cậy của mô hình ngôn ngữ lớn tiết lộ lỗ hổng tiềm ẩn
Một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley và các tổ chức khác đã đánh giá toàn diện độ tin cậy của mô hình transformer tiền huấn luyện sinh sinh (GPT). Nhóm nghiên cứu đã phát triển một nền tảng đánh giá tổng hợp và đã trình bày chi tiết các phát hiện liên quan trong bài báo được công bố gần đây "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Các kết quả nghiên cứu tiết lộ một số lỗ hổng liên quan đến độ tin cậy mà trước đây chưa được công bố. Chẳng hạn, mô hình GPT có xu hướng tạo ra đầu ra độc hại và có thành kiến, đồng thời có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối diện với các gợi ý độc hại nhằm lừa tránh các biện pháp an ninh, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt hơn các chỉ dẫn gây hiểu lầm.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ 8 góc độ khác nhau, bao gồm độ bền với sự tấn công đối kháng, độc tính và thiên kiến, rò rỉ thông tin cá nhân, v.v. Ví dụ, khi đánh giá độ bền của văn bản trước các cuộc tấn công đối kháng, các nhà nghiên cứu đã thiết kế ba kịch bản: thử nghiệm chuẩn, thử nghiệm dưới các chỉ dẫn nhiệm vụ khác nhau, và thử nghiệm văn bản đối kháng tự xây dựng khó khăn hơn.
Về mặt độc hại và thiên kiến, nghiên cứu cho thấy mô hình GPT có thiên kiến không lớn đối với hầu hết các chủ đề khuôn mẫu trong điều kiện chung. Tuy nhiên, dưới sự kích thích hệ thống gây hiểu lầm, mô hình có thể bị dẫn dụ đồng ý với nội dung mang thiên kiến. So với GPT-3.5, GPT-4 dễ bị ảnh hưởng hơn bởi các kích thích gây hiểu lầm có mục tiêu. Mức độ thiên kiến của mô hình cũng phụ thuộc vào độ nhạy cảm của các nhóm và chủ đề cụ thể mà người dùng đề cập.
Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể làm lộ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể nâng cao đáng kể độ chính xác của việc trích xuất thông tin. Hơn nữa, mô hình cũng có thể làm lộ thông tin cá nhân được chèn vào lịch sử đối thoại. Tổng thể, GPT-4 hoạt động tốt hơn GPT-3.5 trong việc bảo vệ thông tin nhận dạng cá nhân, nhưng cả hai đều gặp vấn đề khi đối mặt với các trình diễn rò rỉ quyền riêng tư.
Nhóm nghiên cứu cho biết, công việc đánh giá này nhằm khuyến khích nhiều nhà nghiên cứu tham gia hơn, cùng nhau nỗ lực tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, họ đã công khai mã của các tiêu chuẩn đánh giá, với khả năng mở rộng và tính dễ sử dụng cao. Đồng thời, các nhà nghiên cứu cũng đã chia sẻ kết quả nghiên cứu với các công ty liên quan, để có thể kịp thời thực hiện các biện pháp giải quyết các lỗ hổng tiềm ẩn.
Nghiên cứu này cung cấp một góc nhìn toàn diện về đánh giá độ tin cậy của mô hình GPT, tiết lộ những ưu điểm và nhược điểm của các mô hình hiện có. Với việc các mô hình ngôn ngữ lớn được ứng dụng rộng rãi trong nhiều lĩnh vực, những phát hiện này có ý nghĩa quan trọng trong việc nâng cao tính an toàn và độ tin cậy của hệ thống AI.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
5 thích
Phần thưởng
5
6
Đăng lại
Chia sẻ
Bình luận
0/400
BlockchainTherapist
· 15giờ trước
Thật sự có người tin vào những gì AI nói sao?
Xem bản gốcTrả lời0
GateUser-4745f9ce
· 08-10 01:23
Hơi hoảng, không ngờ lại không an toàn như vậy.
Xem bản gốcTrả lời0
MelonField
· 08-09 21:29
Đã nói rồi, gpt không đáng tin cậy.
Xem bản gốcTrả lời0
NFTDreamer
· 08-09 21:27
Công nghệ dù có mạnh đến đâu cũng sợ Hacker
Xem bản gốcTrả lời0
QuorumVoter
· 08-09 21:21
Tsk, định kiến cái chuyện này căn bản không thể chữa khỏi.
Xem bản gốcTrả lời0
gas_fee_trauma
· 08-09 21:07
Thật không thể tin được gpt4 cũng như vậy, thật kỳ diệu.
Nghiên cứu tiết lộ những rủi ro về độ tin cậy của mô hình GPT, vấn đề bảo vệ quyền riêng tư và thiên kiến vẫn cần được giải quyết.
Nghiên cứu đánh giá độ tin cậy của mô hình ngôn ngữ lớn tiết lộ lỗ hổng tiềm ẩn
Một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley và các tổ chức khác đã đánh giá toàn diện độ tin cậy của mô hình transformer tiền huấn luyện sinh sinh (GPT). Nhóm nghiên cứu đã phát triển một nền tảng đánh giá tổng hợp và đã trình bày chi tiết các phát hiện liên quan trong bài báo được công bố gần đây "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Các kết quả nghiên cứu tiết lộ một số lỗ hổng liên quan đến độ tin cậy mà trước đây chưa được công bố. Chẳng hạn, mô hình GPT có xu hướng tạo ra đầu ra độc hại và có thành kiến, đồng thời có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối diện với các gợi ý độc hại nhằm lừa tránh các biện pháp an ninh, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ nghiêm ngặt hơn các chỉ dẫn gây hiểu lầm.
Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ 8 góc độ khác nhau, bao gồm độ bền với sự tấn công đối kháng, độc tính và thiên kiến, rò rỉ thông tin cá nhân, v.v. Ví dụ, khi đánh giá độ bền của văn bản trước các cuộc tấn công đối kháng, các nhà nghiên cứu đã thiết kế ba kịch bản: thử nghiệm chuẩn, thử nghiệm dưới các chỉ dẫn nhiệm vụ khác nhau, và thử nghiệm văn bản đối kháng tự xây dựng khó khăn hơn.
Về mặt độc hại và thiên kiến, nghiên cứu cho thấy mô hình GPT có thiên kiến không lớn đối với hầu hết các chủ đề khuôn mẫu trong điều kiện chung. Tuy nhiên, dưới sự kích thích hệ thống gây hiểu lầm, mô hình có thể bị dẫn dụ đồng ý với nội dung mang thiên kiến. So với GPT-3.5, GPT-4 dễ bị ảnh hưởng hơn bởi các kích thích gây hiểu lầm có mục tiêu. Mức độ thiên kiến của mô hình cũng phụ thuộc vào độ nhạy cảm của các nhóm và chủ đề cụ thể mà người dùng đề cập.
Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể làm lộ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể nâng cao đáng kể độ chính xác của việc trích xuất thông tin. Hơn nữa, mô hình cũng có thể làm lộ thông tin cá nhân được chèn vào lịch sử đối thoại. Tổng thể, GPT-4 hoạt động tốt hơn GPT-3.5 trong việc bảo vệ thông tin nhận dạng cá nhân, nhưng cả hai đều gặp vấn đề khi đối mặt với các trình diễn rò rỉ quyền riêng tư.
Nhóm nghiên cứu cho biết, công việc đánh giá này nhằm khuyến khích nhiều nhà nghiên cứu tham gia hơn, cùng nhau nỗ lực tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, họ đã công khai mã của các tiêu chuẩn đánh giá, với khả năng mở rộng và tính dễ sử dụng cao. Đồng thời, các nhà nghiên cứu cũng đã chia sẻ kết quả nghiên cứu với các công ty liên quan, để có thể kịp thời thực hiện các biện pháp giải quyết các lỗ hổng tiềm ẩn.
Nghiên cứu này cung cấp một góc nhìn toàn diện về đánh giá độ tin cậy của mô hình GPT, tiết lộ những ưu điểm và nhược điểm của các mô hình hiện có. Với việc các mô hình ngôn ngữ lớn được ứng dụng rộng rãi trong nhiều lĩnh vực, những phát hiện này có ý nghĩa quan trọng trong việc nâng cao tính an toàn và độ tin cậy của hệ thống AI.