Tin đồn về GPT-5.5 “Spud” hấp dẫn vì gắn với một lời hứa rất đáng chú ý: một mô hình OpenAI mới có khả năng “neo” câu trả lời vào bằng chứng thị giác tốt hơn, từ ảnh, biểu mẫu, biểu đồ, bản scan đến tài liệu dài. Nhưng nếu chỉ nhìn vào các nguồn chính thức trong bộ tài liệu được rà soát, kết luận hiện tại gọn hơn nhiều: OpenAI đang tài liệu hóa GPT-5.4, không phải GPT-5.5 hay Spud [20][
23][
24].
Điều đó không chứng minh rằng “Spud” chưa từng là tên nội bộ. Nó chỉ có nghĩa là các tuyên bố công khai về thời điểm phát hành, điểm benchmark hoặc khả năng hiểu ảnh/tài liệu vượt trội của Spud chưa được thiết lập bằng bằng chứng chính thức trong bộ nguồn này.
Phán quyết: nên xem GPT-5.5 “Spud” là chưa được xác minh
Bằng chứng chính thức mạnh nhất hiện trỏ về GPT-5.4. Trang model GPT-5.4 của OpenAI mô tả GPT-5.4 là mô hình tuyến đầu cho các công việc chuyên nghiệp phức tạp [20]. Hướng dẫn model mới nhất và danh mục model của OpenAI cũng dẫn người đọc tới GPT-5.4 [
23][
24].
Ngược lại, các nguồn nhắc riêng tới Spud trong bộ tài liệu này là bài viết web phổ thông, Reddit, bài đăng X và video YouTube, không phải trang model, hướng dẫn model, model card hay báo cáo benchmark chính thức của OpenAI [2][
3][
5][
7][
9][
12]. Vì vậy, cách đọc an toàn là: GPT-5.5 Spud hiện nên được xem là tin đồn hoặc một nhãn chưa xác minh cho tới khi OpenAI công bố tài liệu chính thức.
Bảng kiểm chứng nhanh: Spud so với GPT-5.4
| Tuyên bố | Tình trạng | Nguồn hiện ủng hộ điều gì |
|---|---|---|
| GPT-5.5 “Spud” là model OpenAI công khai, chính thức | Chưa xác minh | Các nguồn chính thức được rà soát ghi nhận GPT-5.4, không phải trang model GPT-5.5 hay Spud [ |
| Spud sắp ra mắt hoặc đã được xác nhận | Chưa xác minh | Các nhắc đến Spud trong bộ nguồn này đến từ web phổ thông hoặc nội dung do người dùng đăng trên mạng xã hội/video [ |
| OpenAI đã tài liệu hóa quy trình hiểu tài liệu đa phương thức | Đã xác minh với GPT-5.4 | OpenAI có hướng dẫn về thị giác và hiểu tài liệu cho GPT-5.4, cùng hướng dẫn prompt cho ảnh dày đặc hoặc nhạy về vị trí [ |
| Spud hiểu ảnh/tài liệu tốt hơn GPT-5.4 | Không được nguồn chính thức ở đây hỗ trợ | Tài liệu chính thức được rà soát hỗ trợ GPT-5.4; không có bằng chứng năng lực hoặc benchmark riêng cho Spud [ |
OpenAI đã thật sự tài liệu hóa điều gì?
Trang GPT-5.4 chính thức nói GPT-5.4 là mô hình tuyến đầu của OpenAI cho công việc chuyên nghiệp phức tạp [20]. OpenAI cũng có trang cookbook về GPT-5.4 tập trung vào thị giác và hiểu tài liệu [
1]. Trong tài liệu được truy xuất, phần hướng dẫn này gắn với các ví dụ như trích xuất có cấu trúc từ một mẫu bảo hiểm viết tay, suy luận không gian trên mặt bằng căn hộ, hiểu biểu đồ và trích xuất hộp giới hạn từ một biểu mẫu cảnh sát [
1].
Các ví dụ đó quan trọng vì xử lý tài liệu thật không chỉ là tóm tắt trôi chảy. Một mô hình có khả năng “grounding” tốt phải liên kết câu trả lời với bằng chứng nhìn thấy được: nhãn trường và giá trị, ô trong bảng, điểm/đường trên biểu đồ, chữ viết tay, bố cục trang và vị trí không gian. Dù vậy, phần GPT-5.4 được rà soát ở đây vẫn là hướng dẫn và minh họa do OpenAI công bố, không phải một báo cáo benchmark độc lập đã kiểm toán cho mọi quy trình tài liệu trong sản xuất [1][
20][
22].
Hướng dẫn prompt của OpenAI cũng có ý nghĩa thực dụng khi đánh giá. OpenAI khuyến nghị dùng mức chi tiết ảnh original cho ảnh lớn, dày đặc hoặc nhạy về không gian, đặc biệt với tác vụ dùng máy tính, định vị, OCR và độ chính xác khi nhấp [22]. Với biểu mẫu, bản scan, ảnh chụp màn hình và biểu đồ, điều này có nghĩa là quy trình có thể mất độ chính xác nếu ảnh bị thu nhỏ quá mức hoặc bị loại bỏ những chi tiết mà mô hình cần quan sát.
Vì sao “grounding” đa phương thức khó hơn OCR?
OCR chủ yếu hỏi hệ thống đọc được chữ hay không. Grounding đa phương thức đi xa hơn: hệ thống phải kết nối chữ, bố cục, vị trí, cấu trúc thị giác và suy luận để đưa ra câu trả lời có thể kiểm tra ngược trên trang.
Bối cảnh nghiên cứu cũng ủng hộ cách nhìn rộng hơn này. Đánh giá hiểu tài liệu thường bao gồm hiểu biểu mẫu, phân tích hóa đơn/biên nhận và document VQA, tức trả lời câu hỏi dựa trên tài liệu trực quan [38]. Với tài liệu nhiều trang, VQA có thể đòi hỏi mô hình suy luận qua nhiều trang, điều hướng tài liệu, truy xuất nội dung liên quan và mở đúng trang cần kiểm tra, thay vì chỉ nhìn một ảnh hoặc một phần cắt của trang [
37].
Vì vậy, một ảnh chụp màn hình gây ấn tượng chưa đủ để kết luận. Đánh giá nghiêm túc cần bao phủ đúng loại tài liệu, chất lượng scan, số trang, chữ viết tay, bảng, biểu đồ, chữ nhỏ và các trường hợp dễ lỗi trong quy trình thực tế.
Nếu cần đánh giá mô hình ảnh và tài liệu của OpenAI ngay bây giờ
- Bắt đầu từ model đã được tài liệu hóa, không phải tên rò rỉ. Trong các nguồn chính thức được rà soát, model OpenAI được ghi nhận là GPT-5.4; GPT-5.5 Spud chưa được xác minh [
20][
23][
24].
- Giữ chi tiết ảnh khi chi tiết đó quan trọng. Dùng
originalcho đầu vào lớn, dày đặc hoặc nhạy về không gian như OCR, định vị, độ chính xác khi nhấp và tác vụ dùng máy tính [22].
- Chấm bằng chứng, không chỉ chấm văn phong. Với trích xuất dữ liệu, hãy so khớp giá trị trường chính xác. Với biểu đồ, yêu cầu giá trị có thể truy vết. Với biểu mẫu và ảnh chụp màn hình, hãy yêu cầu hộp hoặc tọa độ khi vị trí là yếu tố quan trọng; ví dụ GPT-5.4 của OpenAI có nhắc tới trích xuất hộp giới hạn [
1].
- Thử trên đúng tài liệu bạn sẽ xử lý. Nên có biểu mẫu, hóa đơn/biên nhận và tác vụ kiểu document VQA, vì các nhóm này xuất hiện trong tài liệu benchmark về hiểu tài liệu [
38].
- Đưa tài liệu nhiều trang vào bài kiểm tra. VQA trên tài liệu nhiều trang có thể cần điều hướng tài liệu, suy luận thị giác có cấu trúc, truy xuất ngữ nghĩa và lấy đúng trang mục tiêu [
37].
- So sánh cả thiết kế pipeline, không chỉ model. Có tác vụ chạy tốt trong một lượt model; tác vụ khác có thể cần OCR, phân tích bố cục, truy xuất, cắt vùng ảnh hoặc chọn trang, nhất là khi tệp dài, dày đặc hoặc nhạy về vị trí [
22][
37][
38].
Kết luận
Tên “Spud” xuất hiện trong các nguồn mang màu sắc tin đồn, nhưng chưa được xác minh là model OpenAI công khai, chính thức trong bộ nguồn được rà soát. Kết luận có thể hành động hiện nay hẹp hơn: hãy đánh giá GPT-5.4 cho các quy trình thị giác và hiểu tài liệu mà OpenAI đã tài liệu hóa, và xem các tuyên bố về khả năng grounding đa phương thức của GPT-5.5 Spud là chưa được chứng minh cho tới khi OpenAI công bố trang model, hướng dẫn model, model card hoặc báo cáo benchmark chính thức [1][
20][
22][
23][
24].




