Trong các cuộc tranh luận về mô hình AI, câu hỏi ai hơn ai thường dễ nói nhưng khó kiểm toán. Với bộ tài liệu được rà soát ở đây, Anthropic mô tả Claude Opus 4.7 là một model Claude thế hệ mới và là model được cung cấp rộng rãi mạnh nhất của hãng cho các tác vụ phức tạp; còn tài liệu OpenAI theo từng model trong phạm vi lại là GPT-5.4, không phải GPT-5.5 Spud [53][
65][
75].
Vì vậy, kết luận thẳng thắn không phải là bên nào thắng. Câu hỏi đúng hơn là: quy trình nghiên cứu AI có để lại dấu vết nguồn đủ để người khác kiểm tra hay không?
Câu trả lời đã được xác minh
Không thể xác minh một kết quả đối đầu trực tiếp Claude Opus 4.7 vs GPT-5.5 Spud về nguồn gốc bằng chứng từ các tài liệu này. Điều có thể xác minh hẹp hơn là: OpenAI có tài liệu về yêu cầu hiển thị trích dẫn web cho người dùng trong Deep Research, còn Anthropic có tài liệu về trích dẫn dựa trên tài liệu được cung cấp cho Claude khi bật citations [23][
77].
Với doanh nghiệp mua công cụ, nhóm phát triển sản phẩm hoặc nhà nghiên cứu, kết luận hẹp này thực tế hữu ích hơn một bảng xếp hạng. Provenance trong nghiên cứu AI không chỉ là model nào nghe có vẻ mạnh hơn, mà là liệu người đánh giá có thể lần từ một mệnh đề quan trọng về đúng URL, tệp, đoạn tài liệu, kết quả truy xuất hoặc bằng chứng gốc để kiểm tra hay không.
Ba lớp thường bị nhập làm một
Một workflow nghiên cứu AI đáng tin nên tách rõ ba phần:
- Trích dẫn: mốc hoặc liên kết nhìn thấy được, nối một mệnh đề với nguồn.
- Giữ lại nguồn: lưu các tài liệu, trang web, tệp, đoạn truy xuất hoặc hiện vật đã dùng để tạo câu trả lời.
- Dấu vết suy luận: tóm tắt suy luận, nội dung kiểu scratchpad/bảng nháp hoặc cơ chế điều khiển suy luận nội bộ. Chúng có thể hữu ích khi thiết kế hệ thống, nhưng không tự chứng minh một sự kiện đến từ nguồn nào.
Trích dẫn là lớp dễ thấy nhất. Nhưng chỉ có trích dẫn thôi chưa đủ. Bài kiểm tra mạnh hơn là: người đọc có mở được đúng phần bằng chứng đỡ cho một tuyên bố cụ thể hay không.
OpenAI: rõ nhất ở yêu cầu hiển thị trích dẫn web
Trong nhóm tài liệu này, yêu cầu provenance rõ nhất của OpenAI nằm ở tài liệu Deep Research. Khi hiển thị kết quả web, hoặc thông tin có trong kết quả web, cho người dùng cuối, trích dẫn nội dòng cần được hiển thị rõ ràng và có thể bấm được [23]. Điểm này quan trọng vì dấu vết nguồn sẽ yếu đi nếu liên kết bị giấu trong metadata, hoặc nằm tách rời khỏi câu mà nó được cho là hỗ trợ.
OpenAI cũng có hướng dẫn về định dạng trích dẫn, bao gồm cách chuẩn bị tài liệu có thể trích dẫn và cách yêu cầu model định dạng trích dẫn hiệu quả [22]. Ví dụ Deep Research API của OpenAI nói phản hồi gồm câu trả lời cuối có cấu trúc với trích dẫn nội dòng, tóm tắt các bước suy luận và thông tin nguồn [
24]. Trung tâm trợ giúp của OpenAI cũng nói đầu ra Deep Research có trích dẫn hoặc liên kết nguồn để người dùng xác minh thông tin [
30].
Điều này cho phép rút ra một kết luận giới hạn nhưng quan trọng: trong các tài liệu được xem xét, OpenAI nói khá rõ về cách trình bày trích dẫn trong workflow nghiên cứu web. Nó không chứng minh mọi trích dẫn đều chính xác, và cũng không chứng minh điều gì riêng cho GPT-5.5 Spud.
Anthropic: rõ nhất ở trích dẫn bám vào tài liệu đầu vào
Phần mạnh nhất của tài liệu Anthropic ở đây là cách hãng định vị Claude Opus 4.7 và cơ chế trích dẫn theo tài liệu. Anthropic mô tả Claude Opus 4.7 là một phần của thế hệ Claude mới nhất, đồng thời khuyến nghị dùng model này cho các tác vụ phức tạp nhất vì đây là model được cung cấp rộng rãi mạnh nhất của hãng [53][
65].
Về provenance, nguồn quan trọng là tài liệu citations của Anthropic. Tài liệu này nói Claude có thể cung cấp trích dẫn chi tiết khi trả lời câu hỏi về tài liệu, giúp người dùng theo dõi và xác minh nguồn thông tin, với điều kiện tài liệu được cung cấp và citations được bật [77]. Tài liệu cũng mô tả độ chi tiết của trích dẫn: văn bản thuần và PDF mặc định được tự động chia thành các câu, còn custom content documents có thể được dùng khi nhà phát triển cần kiểm soát chi tiết hơn [
77].
Tài liệu hỗ trợ PDF của Anthropic bổ sung một chi tiết liên quan: phân tích PDF trực quan trong Converse API yêu cầu bật citations [58]. Anthropic cũng có Files API cho phép nhà phát triển tải lên và quản lý tệp để dùng với Claude API mà không phải tải lại cùng một nội dung ở mỗi request [
52]. Quản lý tệp không tự chứng minh trích dẫn là đúng, nhưng có thể hỗ trợ một đường kiểm toán mạnh hơn nếu đi kèm việc lưu nguồn và gắn trích dẫn ở cấp mệnh đề.
Scratchpad và thinking block không phải bằng chứng nguồn
Cái bẫy lớn khi đánh giá provenance là tưởng rằng model cho thấy hoặc tóm tắt cách nó suy nghĩ thì tức là đã chứng minh được nguồn. Không phải vậy.
Trang thực hành tốt nhất về reasoning của OpenAI nói các reasoning model suy luận nội bộ, đồng thời khuyên nhà phát triển không nên yêu cầu model suy nghĩ từng bước hoặc giải thích chain of thought [42]. Hướng dẫn reasoning models của OpenAI tập trung vào các điều khiển như reasoning effort, reasoning tokens và duy trì trạng thái suy luận qua nhiều lượt [
43].
Anthropic dùng nhiều thuật ngữ hơn quanh cơ chế thinking. Tài liệu prompt caching nói thinking blocks có hành vi đặc biệt khi dùng extended thinking với prompt caching [55]. Tài liệu extended thinking phân biệt full thinking tokens với đầu ra đã được tóm tắt trong Claude 4 và các model mới hơn [
76]. Release notes của Anthropic mô tả một trường hiển thị có thể bỏ nội dung thinking khỏi phản hồi, còn tài liệu Claude Code nói thêm
ultrathink vào một skill sẽ bật extended thinking trong skill đó [66][
63].
Các tính năng này có thể giúp nhà phát triển điều chỉnh workflow phức tạp. Nhưng scratchpad, chain of thought ẩn, hoặc tóm tắt đường suy luận không chứng minh rằng một mệnh đề thực tế đến từ URL, tài liệu hoặc tệp cụ thể nào. Hãy xem chúng là ngữ cảnh phụ, không phải đường kiểm toán nguồn.
Checklist thực tế cho workflow nghiên cứu AI
Thay vì chọn chỉ theo tên model, hãy hỏi liệu toàn bộ quy trình có chịu được kiểm tra hay không.
- Có trích dẫn nhìn thấy được ở cấp mệnh đề. Với thông tin lấy từ web, tài liệu Deep Research của OpenAI yêu cầu trích dẫn nội dòng hiển thị rõ và bấm được [
23]. Với workflow tài liệu của Claude, Anthropic mô tả trích dẫn khi tài liệu được cung cấp và citations được bật [
77].
- Có nguồn để mở ra kiểm tra. Đừng chỉ lưu câu trả lời cuối. Hãy giữ lại tài liệu, trang web, tệp hoặc đoạn truy xuất phía sau câu trả lời. Ví dụ Deep Research API của OpenAI nhắc tới thông tin nguồn, còn Files API của Anthropic hỗ trợ dùng lại tệp đầu vào trong workflow Claude API [
24][
52].
- Độ chi tiết của trích dẫn đủ hẹp. Một trích dẫn hữu ích nên chỉ tới phần bằng chứng liên quan, không phải một rổ nguồn chung chung. Anthropic mô tả cơ chế chia theo câu mặc định cho văn bản thuần và PDF, cùng custom content documents để kiểm soát chi tiết hơn [
77]. OpenAI cũng có hướng dẫn chuẩn bị tài liệu có thể trích dẫn và nhắc model định dạng trích dẫn [
22].
- Tách suy luận khỏi bằng chứng. Điều khiển reasoning hoặc thinking có thể cải thiện hành vi của workflow, nhưng tài liệu OpenAI và Anthropic mô tả chúng như cơ chế suy luận/thinking, không phải thứ thay thế cho tuyên bố có gắn nguồn [
42][
43][
55][
76].
- Vẫn cần con người kiểm chứng ở điểm rủi ro cao. Tài liệu nhà cung cấp mô tả tính năng trích dẫn và cách hiển thị; chúng không phải bảo đảm độc lập rằng mọi mệnh đề được trích dẫn đều đúng. Với kết luận quan trọng, người đọc vẫn nên đối chiếu nguồn gốc.
Kết luận
Các tài liệu đã rà soát ủng hộ một so sánh có sắc thái, không phải một bảng xếp hạng. Trong phạm vi này, OpenAI có bằng chứng rõ hơn về yêu cầu trích dẫn web hướng tới người dùng, vì Deep Research nêu rõ trích dẫn nội dòng cần hiển thị rõ và bấm được khi thông tin từ web được đưa cho người dùng [23]. Anthropic có bằng chứng rõ hơn về trích dẫn bám tài liệu cho Claude, vì tài liệu của hãng mô tả việc bật citations trên tài liệu được cung cấp và kiểm soát độ chi tiết qua chia câu hoặc custom content [
77].
Claude Opus 4.7 được Anthropic mô tả là model được cung cấp rộng rãi mạnh nhất của hãng cho các tác vụ phức tạp, nhưng nguồn OpenAI theo từng model trong nhóm tài liệu này là GPT-5.4, không phải GPT-5.5 Spud [53][
65][
75]. Nếu mục tiêu là nghiên cứu AI có thể kiểm toán, hãy so sánh cách workflow giữ nguồn, gắn trích dẫn chi tiết và kiểm chứng đầu ra trước khi so sánh tên model.




