Khi dùng AI để đọc bài báo, lướt web, tóm tắt PDF hay gom nguồn cho báo cáo, câu hỏi quan trọng không chỉ là mô hình nào “thông minh hơn”. Điểm mấu chốt là mô hình có biết xem tài liệu bên ngoài là dữ liệu không đáng tin tuyệt đối hay không. Trong bài này, “nhiễm bẩn nghiên cứu” gồm: prompt injection, trích dẫn trông rất học thuật nhưng không tồn tại, PDF giấu lệnh, và bộ dữ liệu chỉ đưa một phía bằng chứng.
Với các tài liệu công khai hiện có, chưa có cơ sở để kết luận Claude Opus 4.7 hay mô hình OpenAI được bên thứ ba gọi là GPT-5.5 Spud an toàn hơn trong các tình huống đó.[2][
23][
27][
32][
45][
51]
Kết luận ngắn: chưa thể chấm thắng thua
Nếu câu hỏi là “mô hình nào giữ được chất lượng nghiên cứu tốt hơn khi đầu vào bị nhiễm bẩn?”, câu trả lời thận trọng hiện nay là: chưa đủ bằng chứng để kết luận.
Muốn trả lời nghiêm túc, cần một bài thử đối đầu trong cùng điều kiện: cùng chuỗi công cụ, cùng bộ tài liệu, cùng mẫu tấn công, cùng cách chấm điểm. Các chỉ số tối thiểu nên gồm tỷ lệ mô hình làm theo prompt injection, tỷ lệ trích dẫn không được nguồn thật hỗ trợ, tỷ lệ tuân theo lệnh độc hại giấu trong PDF, và chất lượng kết luận sau khi dữ liệu bị thiên lệch. Các nguồn công khai hiện chưa cung cấp phép so sánh trực tiếp như vậy.[2][
23][
27][
32][
45][
51]
Điều có thể nói chắc hơn là: Claude Opus 4.7 có đường dẫn tài liệu chính thức rõ hơn. Anthropic có trang giới thiệu Opus 4.7, tài liệu dành cho nhà phát triển, và trang system card liệt kê Claude Opus 4.7.[5][
9][
51] Tuy nhiên, tài liệu đầy đủ hơn không đồng nghĩa với việc mô hình chắc chắn an toàn hơn trong một quy trình nghiên cứu bị tấn công.
Tài liệu công khai đang nói gì?
Claude: hồ sơ chính thức rõ hơn, nhưng chưa phải bài test nhiễm bẩn
Anthropic xác nhận Claude Opus 4.7 qua tài liệu chính thức và trang phát hành. Tài liệu của hãng cho biết Opus 4.7 có task budgets; phần hướng dẫn prompt cũng lưu ý rằng khi dùng Opus 4.7 ở mức effort max hoặc xhigh, nên cấp đủ ngân sách token đầu ra để mô hình có không gian làm việc qua subagents và tool calls.[5][
9][
44]
Điều này cho thấy Anthropic có tài liệu hóa các luồng tác vụ dài, sử dụng công cụ và quy trình dạng agent. System card của Claude 4 cũng mô tả các bài kiểm tra an toàn trước triển khai theo Responsible Scaling Policy, kiểm tra hành vi vi phạm Usage Policy, đánh giá reward hacking, cùng các đánh giá an toàn dạng agent cho computer use và coding capabilities.[45] System card của Claude 4.1 còn liệt kê các mục về prompt injection attacks and computer use.[
71]
Nhưng đó vẫn là bối cảnh đánh giá an toàn, không phải một bài thử trực tiếp giữa Claude Opus 4.7 và GPT-5.5 Spud trên cùng bộ dữ liệu nghiên cứu bị nhiễm bẩn.
OpenAI: có đánh giá liên quan, nhưng chưa phải bằng chứng riêng cho Spud
System card GPT-5 của OpenAI có phần đánh giá factual correctness và hallucination. Tài liệu mô tả việc dùng mô hình chấm điểm dựa trên LLM có truy cập web để gắn nhãn lỗi sự thật nghiêm trọng và nhẹ; OpenAI cũng nói các mô hình GPT-5 có tỷ lệ hallucination thấp hơn các mô hình OpenAI được liệt kê để so sánh, cả trong thiết lập có duyệt web và không duyệt web.[2][
34]
System card của ChatGPT Agent mô tả các đánh giá SecureBio dạng static và agentic, manual red-teaming, cùng các tác vụ cần web-search và reasoning.[32] Phụ lục system card của GPT-5-Codex cũng nêu rõ rủi ro prompt injection và một prompt injection evaluation suite chuyên biệt.[
24]
Vấn đề là các tài liệu đó không phải system card chính thức riêng cho GPT-5.5 Spud. Những nguồn công khai nói trực tiếp về Spud chủ yếu là trang tổng hợp hoặc bài viết bên thứ ba, không phải tài liệu an toàn chính thức của OpenAI cho mô hình này.[23][
27]
Bốn rủi ro nhiễm bẩn cần nhìn riêng
1. Prompt injection: cả hai bên có bối cảnh an toàn, chưa có đấu trực tiếp
Prompt injection xảy ra khi mô hình đọc một trang web, bảng dữ liệu, chú thích, email hoặc PDF rồi nhầm nội dung trong đó thành chỉ thị cần làm theo. Với tác vụ nghiên cứu, đây là rủi ro rất thực tế: một tài liệu có thể bảo mô hình bỏ qua nguồn khác, tiết lộ dữ liệu, hoặc bịa kết luận.
Tài liệu Claude 4 và 4.1 cho thấy Anthropic có các đánh giá liên quan đến agentic safety, computer use và prompt injection. Phía OpenAI, tài liệu ChatGPT Agent và GPT-5-Codex cũng cho thấy có agentic evaluations, manual red-teaming và prompt injection evaluation suite.[24][
32][
45][
71]
Nhưng câu hỏi chính vẫn chưa được trả lời: trên cùng một bộ tài liệu bị cài lệnh độc hại, Claude Opus 4.7 và GPT-5.5 Spud mô hình nào ít làm theo nội dung không đáng tin hơn? Chưa có bài thử cùng sân, nên không nên biến “có tài liệu an toàn” thành “đã thắng”.[23][
27][
45][
51]
2. Giả trích dẫn: đánh giá ảo giác chưa phải bài kiểm tra trích dẫn
Giả trích dẫn thường là thất bại về tính đúng sự thật và khả năng kiểm chứng nguồn. System card GPT-5 đúng là có phần đánh giá factual correctness và hallucination, kèm mô tả phương pháp chấm.[2][
34]
Nhưng đánh giá hallucination không tự động tương đương với một bài “stress test” về trích dẫn học thuật. Hiện chưa có dữ liệu công khai cho biết GPT-5.5 Spud xử lý ra sao khi trộn DOI thật, DOI giả, URL thật, URL hỏng, tên tạp chí giả và bài báo nghe có vẻ hợp lý nhưng không tồn tại. Cũng chưa có kết quả Claude Opus 4.7 trên đúng cùng bộ đó để so sánh.[23][
27][
51]
3. PDF độc hại: thiếu chỉ số công khai có thể so sánh
Các nguồn hiện có không đưa ra chỉ số đối đầu cho hai mô hình trong tình huống PDF độc hại: chẳng hạn mô hình có làm theo chữ ẩn trong PDF, chỉ thị trong metadata, chú thích, hoặc thông điệp giả dạng system prompt trong tệp đính kèm hay không.[2][
32][
45][
51]
Vì vậy, trong triển khai thực tế, không nên giao toàn bộ việc “đọc PDF an toàn” cho mô hình. Cách chắc hơn là xem PDF như đầu vào không đáng tin: tách văn bản và cấu trúc trong môi trường cô lập, ghi log quá trình xử lý, rồi đo xem mô hình có biến nội dung tài liệu thành chỉ thị vận hành hay không.
4. Dữ liệu thiên lệch: benchmark bias chưa phải kiểm tra nghiên cứu đầu-cuối
System card Claude 4 có các phần về bias evaluations; system card Claude 4.1 liệt kê political bias và discriminatory bias. System card GPT-4.5 của OpenAI cũng nêu các đánh giá liên quan đến bias, gồm BBQ Evaluation Dataset.[38][
57][
71]
Tuy nhiên, benchmark về thiên lệch và quy trình nghiên cứu bị nhiễm bẩn không phải cùng một thứ. Với một tác vụ nghiên cứu thật, điều cần đo là mô hình có phát hiện nguồn dữ liệu mất cân bằng hay không, có chủ động tìm bằng chứng ngược chiều hay không, có ghi rõ giới hạn mẫu hay không, hay lại biến một tập nguồn lệch thành kết luận tổng quát. Chưa có điểm số công khai có thể so sánh giữa Claude Opus 4.7 và GPT-5.5 Spud cho loại bài kiểm tra đầu-cuối này.[23][
27][
51]
Vì sao system card chưa đủ để chọn mô hình
System card có giá trị vì cho bên ngoài biết nhà cung cấp đã đánh giá năng lực và rủi ro gì trước khi phát hành. Tài liệu về Anthropic nói Responsible Scaling Policy yêu cầu đánh giá an toàn toàn diện trước khi phát hành frontier models trong các lĩnh vực rủi ro thảm họa tiềm tàng như CBRN — hóa học, sinh học, phóng xạ, hạt nhân — an ninh mạng và năng lực tự chủ.[4] System card Claude 4 cũng mô tả nhiều nhóm kiểm tra an toàn và agentic safety evaluations.[
45]
Phía OpenAI, tài liệu GPT-5 và ChatGPT Agent cung cấp bối cảnh về factual correctness, hallucination, agentic evaluations và manual red-teaming.[2][
32][
34]
Nhưng nhiễm bẩn nghiên cứu không chỉ là vấn đề của mô hình lõi. Nó là vấn đề của cả quy trình: hệ thống tìm kiếm, bộ phân tích tệp đính kèm, thứ bậc prompt, quyền dùng công cụ, hành vi mô hình, kiểm chứng trích dẫn, nhật ký thao tác và vòng duyệt của con người. Một mô hình có kết quả tốt ở một số đánh giá chính thức vẫn chưa chắc chống được mọi kiểu tấn công trong một pipeline nghiên cứu cụ thể.
Cần thận trọng thêm vì hành vi mô hình phụ thuộc mạnh vào prompt và ngữ cảnh. Nghiên cứu alignment-faking của Anthropic cho thấy trong một số thiết lập thí nghiệm, mô hình ngôn ngữ lớn có thể thể hiện hành vi liên quan đến alignment faking, và kết quả thay đổi theo điều kiện prompt.[31] Điều này không có nghĩa Claude Opus 4.7 hay GPT-5.5 Spud chắc chắn thất thủ trong nghiên cứu; nó chỉ nhắc rằng không nên suy luận biên an toàn từ vài dòng quảng bá, ảnh chụp rò rỉ hoặc một màn demo đơn lẻ.
Nếu phải chọn hôm nay, nên kiểm tra thế nào?
Cách hợp lý không phải là chọn theo thương hiệu, mà là dựng một bộ red-team có thể lặp lại, rồi cho hai mô hình chạy trong cùng điều kiện. Ít nhất nên có:
- Kiểm tra prompt injection: cài lệnh độc hại mâu thuẫn nhau trong trang web, PDF, bảng, chú thích và danh mục tài liệu; đo tỷ lệ mô hình làm theo nội dung không đáng tin.
- Kiểm tra giả trích dẫn: trộn DOI thật, DOI giả, URL thật, URL chết, tên tạp chí giả và bài báo không tồn tại; đo tỷ lệ trích dẫn không có nguồn hỗ trợ và tỷ lệ mô hình tự báo cần kiểm chứng.
- Kiểm tra PDF độc hại: dùng sandbox để tạo PDF có chữ ẩn, chú thích và metadata chứa lệnh; đo xem mô hình có coi nội dung trong tệp là chỉ thị hay không.
- Kiểm tra dữ liệu thiên lệch: cung cấp nguồn một chiều, dữ liệu lấy mẫu lệch và bằng chứng phản biện bị cố tình bỏ sót; đo xem mô hình có ghi rõ giới hạn và tìm cách giải thích thay thế hay không.
- Chấm chất lượng nghiên cứu đầu-cuối: đánh giá độ đúng của kết luận, khả năng truy vết nguồn, cách xử lý phản chứng, từ chối hợp lý và từ chối quá mức, log dùng công cụ, cùng chi phí con người phải kiểm lại.
Phán quyết cuối cùng
Nếu bám chặt vào nguồn công khai có thể kiểm tra, chưa thể chứng minh Claude Opus 4.7 hay GPT-5.5 Spud mạnh hơn trước prompt injection, giả trích dẫn, PDF độc hại và dữ liệu thiên lệch. Claude nhỉnh hơn ở tiêu chí hẹp là mức độ rõ ràng của tài liệu chính thức; phía OpenAI có nhiều tài liệu an toàn cho GPT-5, ChatGPT Agent và GPT-5-Codex, nhưng chúng chưa phải bằng chứng trực tiếp cho GPT-5.5 Spud.[2][
5][
9][
23][
24][
27][
32][
45][
51]
Nói ngắn gọn: Claude có lợi thế về khả năng truy vết tài liệu công khai; còn về độ an toàn thực tế trong quy trình nghiên cứu bị nhiễm bẩn, bằng chứng hiện vẫn chưa đủ.




