การประกาศว่าโมเดลไหน “ชนะ” อีกโมเดลหนึ่งทำได้ง่าย แต่การตรวจสอบว่าชนะจากหลักฐานอะไรนั้นยากกว่า ในเอกสารที่ตรวจสอบชุดนี้ Anthropic ระบุว่า Claude Opus 4.7 เป็นหนึ่งใน Claude รุ่นล่าสุด และเป็นโมเดลที่เปิดใช้ทั่วไปซึ่งมีความสามารถสูงสุดของบริษัทสำหรับงานซับซ้อน ขณะที่เอกสารเฉพาะโมเดลของ OpenAI ที่อยู่ในขอบเขตพูดถึง GPT-5.4 ไม่ใช่ GPT-5.5 Spud [53][
65][
75].
ดังนั้นคำตอบที่ซื่อสัตย์ที่สุดไม่ใช่ “ฝั่งไหนชนะ” แต่คือ “ต้องตรวจอะไรบ้างก่อนเชื่อผลวิจัยจาก AI”
คำตอบที่ยืนยันได้
จากแหล่งข้อมูลชุดนี้ ยังไม่สามารถยืนยันผลเปรียบเทียบโดยตรงระหว่าง Claude Opus 4.7 กับ GPT-5.5 Spud ในด้าน research provenance หรือการไล่รอยที่มาของหลักฐานได้ สิ่งที่ยืนยันได้แคบกว่านั้นคือ OpenAI มีเอกสารกำหนดการแสดง citations สำหรับ Deep Research บนเว็บ ส่วน Anthropic มีเอกสารอธิบาย citations ของ Claude เมื่อนำเอกสารมาให้โมเดลและเปิดใช้ฟีเจอร์ citations [23][
77].
สำหรับทีมที่ซื้อเครื่องมือ สร้างระบบ RAG หรือใช้ AI ทำรายงาน สิ่งนี้สำคัญกว่าอันดับบนลีดเดอร์บอร์ด เพราะงานวิจัยที่ตรวจสอบได้ต้องตอบคำถามพื้นฐานให้ได้ว่า “ข้อความนี้อ้างจากอะไร” และผู้ตรวจสอบสามารถย้อนกลับไปดู URL ไฟล์ ชิ้นข้อมูลที่ค้นคืน เอกสาร หรือหลักฐานต้นทางได้จริงหรือไม่
Provenance ที่ดีควรแยก 3 เรื่องนี้ออกจากกัน
ในงาน AI research คำว่า “อ้างอิงได้” มักถูกใช้ปนกันหลายชั้น ควรแยกอย่างน้อย 3 ส่วน:
- Citations: ตัวชี้จากข้อความอ้างอิงไปยังแหล่งข้อมูลที่มองเห็นได้
- Source capture: การเก็บหน้าเว็บ เอกสาร ไฟล์ chunk หรือ artifact ที่ระบบใช้สร้างคำตอบไว้ให้ตรวจย้อนหลัง
- Reasoning artifacts: สรุปการคิด scratchpad หรือกลไกควบคุมการให้เหตุผล ซึ่งอาจช่วยออกแบบ workflow แต่ไม่ได้พิสูจน์ว่าข้อเท็จจริงมาจากแหล่งใด
Citations เป็นชั้นที่ผู้ใช้เห็นง่ายที่สุด แต่แค่มีเลขอ้างอิงยังไม่พอ การทดสอบที่แข็งแรงกว่าคือ ผู้ตรวจสอบต้องไล่จาก claim ไปถึงหลักฐานต้นทางที่เกี่ยวข้อง แล้วตรวจได้ด้วยตนเอง
ฝั่ง OpenAI: หลักฐานชัดสุดเรื่องการแสดง citations บนเว็บ
ในเอกสารชุดนี้ จุดที่ OpenAI ระบุเรื่อง provenance ชัดที่สุดอยู่ในเอกสาร Deep Research: เมื่อแสดงผลลัพธ์เว็บหรือข้อมูลที่มาจากผลลัพธ์เว็บต่อผู้ใช้ปลายทาง inline citations ควรถูกทำให้เห็นชัดและคลิกได้ในหน้าจอผู้ใช้ [23]. ประเด็นนี้สำคัญ เพราะถ้าลิงก์ถูกซ่อนอยู่ใน metadata หรือแยกออกจาก claim ที่รองรับ การตรวจสอบย้อนกลับจะอ่อนลงทันที
OpenAI ยังมีคู่มือเรื่อง citation formatting สำหรับการเตรียมเนื้อหาที่อ้างอิงได้ และการสั่งให้โมเดลจัดรูปแบบ citations อย่างเหมาะสม [22]. ตัวอย่าง Deep Research API ของ OpenAI ระบุว่าคำตอบประกอบด้วย final answer แบบมีโครงสร้าง พร้อม inline citations สรุปขั้นตอนการให้เหตุผล และข้อมูลแหล่งที่มา [
24]. ส่วน Help Center ของ OpenAI ระบุว่า output ของ Deep Research มี citations หรือ source links เพื่อให้ผู้ใช้ตรวจสอบข้อมูลได้ [
30].
สรุปแบบจำกัดคือ OpenAI มีเอกสารที่ชัดเจนเรื่องการนำเสนอ citations สำหรับ workflow วิจัยบนเว็บ แต่สิ่งนี้ไม่ได้พิสูจน์ว่า citation ทุกอันถูกต้อง และไม่ได้ยืนยันอะไรเฉพาะเจาะจงเกี่ยวกับ GPT-5.5 Spud
ฝั่ง Anthropic: หลักฐานชัดสุดเรื่อง citations จากเอกสารที่ป้อนให้ Claude
เอกสาร Anthropic ในชุดนี้ชัดเจนที่สุดใน 2 เรื่อง: ตำแหน่งของ Claude Opus 4.7 และกลไก citations ที่อิงเอกสาร Anthropic ระบุว่า Claude Opus 4.7 เป็นส่วนหนึ่งของ Claude รุ่นล่าสุด และแนะนำให้เริ่มจากโมเดลนี้สำหรับงานซับซ้อนที่สุดในฐานะโมเดลที่เปิดใช้ทั่วไปและมีความสามารถสูงสุดของบริษัท [53][
65].
ในด้าน provenance แหล่งสำคัญคือเอกสาร citations ของ Anthropic ซึ่งระบุว่า Claude สามารถให้ citations แบบละเอียดเมื่อตอบคำถามเกี่ยวกับเอกสาร ช่วยให้ผู้ใช้ติดตามและตรวจสอบแหล่งข้อมูลได้ เมื่อมีการส่งเอกสารและเปิดใช้ citations [77]. เอกสารเดียวกันยังอธิบายความละเอียดของ citation ด้วยว่า plain text และ PDF จะถูกแบ่งเป็นประโยคโดยอัตโนมัติเป็นค่าเริ่มต้น ส่วน custom content documents ใช้ได้เมื่อผู้พัฒนาต้องการควบคุมความละเอียดมากขึ้น [
77].
เอกสาร PDF support ของ Anthropic เพิ่มรายละเอียดที่เกี่ยวกับการตรวจสอบได้อีกจุดหนึ่ง: การวิเคราะห์ PDF แบบ visual ใน Converse API ต้องเปิดใช้ citations [58]. Anthropic ยังมี Files API ที่ให้ผู้พัฒนาอัปโหลดและจัดการไฟล์เพื่อใช้กับ Claude API โดยไม่ต้องอัปโหลดเนื้อหาเดิมซ้ำในทุก request [
52]. การจัดการไฟล์ไม่ได้พิสูจน์ว่า citations ถูกต้องเสมอไป แต่เมื่อใช้ร่วมกับการเก็บแหล่งข้อมูลและ citations ระดับ claim ก็ช่วยสร้าง audit trail ที่แข็งแรงขึ้นได้
Scratchpad หรือ thinking block ไม่ใช่หลักฐานต้นทาง
กับดักใหญ่ของการประเมิน “AI research provenance” คือการถือว่าเส้นทางการคิดของโมเดลเป็นหลักฐาน ที่จริงแล้วมันไม่ใช่สิ่งเดียวกัน
เอกสาร reasoning best practices ของ OpenAI ระบุว่า reasoning models ให้เหตุผลภายใน และแนะนำผู้พัฒนาไม่ให้ prompt โมเดลให้คิดทีละขั้นหรืออธิบาย chain of thought [42]. คู่มือ reasoning models ของ OpenAI เน้นการควบคุมอย่าง reasoning effort, reasoning tokens และการรักษาสถานะ reasoning ข้าม turn [
43].
ฝั่ง Anthropic มีคำศัพท์เกี่ยวกับกลไกการคิดมากกว่า เอกสาร prompt caching ระบุว่า thinking blocks มีพฤติกรรมเฉพาะเมื่อใช้ extended thinking ร่วมกับ prompt caching [55]. เอกสาร extended thinking แยก full thinking tokens ออกจาก summarized output ใน Claude 4 และรุ่นหลังจากนั้น [
76]. Release notes ของ Anthropic ระบุถึง display field ที่สามารถ omit thinking content จาก responses และเอกสาร Claude Code ระบุว่าการใส่คำว่า
ultrathink ใน skill จะเปิด extended thinking สำหรับ skill นั้น [66][
63].
ฟีเจอร์เหล่านี้มีประโยชน์ต่อการปรับ workflow ที่ซับซ้อน แต่ scratchpad, chain of thought ที่ซ่อนอยู่ หรือสรุปการให้เหตุผล ไม่ได้พิสูจน์ว่าข้อเท็จจริงหนึ่งมาจาก URL เอกสาร หรือไฟล์ใด ควรมอง reasoning artifacts เป็นบริบทประกอบ ไม่ใช่ audit trail ของแหล่งข้อมูล
เช็กลิสต์สำหรับ workflow วิจัยด้วย AI
แทนที่จะเลือกจากชื่อโมเดลอย่างเดียว ควรถามว่า workflow ทั้งชุดทนการตรวจสอบได้หรือไม่
- มี citations ระดับ claim ที่เห็นชัด สำหรับข้อมูลจากเว็บ เอกสาร Deep Research ของ OpenAI ระบุว่า inline citations ควรเห็นชัดและคลิกได้ [
23]. สำหรับ workflow ที่ใช้เอกสารกับ Claude เอกสาร Anthropic ระบุเรื่อง citations เมื่อส่งเอกสารและเปิดใช้ฟีเจอร์นี้ [
77].
- เก็บ source artifacts ให้ตรวจได้ อย่าเก็บเฉพาะคำตอบสุดท้าย ตัวอย่าง Deep Research API ของ OpenAI พูดถึง source information ส่วน Files API ของ Anthropic รองรับการใช้ไฟล์ซ้ำใน workflow ของ Claude API [
24][
52].
- ควบคุมความละเอียดของ citation citation ที่ดีควรชี้ไปยังหลักฐานที่เกี่ยวข้อง ไม่ใช่โยนไปยังแหล่งข้อมูลกว้าง ๆ Anthropic ระบุการแบ่ง plain text และ PDF เป็นประโยคโดยค่าเริ่มต้น รวมถึง custom content documents สำหรับการควบคุมที่ละเอียดขึ้น [
77]. OpenAI แยกต่างหากด้วยคู่มือเตรียมเนื้อหาที่อ้างอิงได้และการสั่งรูปแบบ citations [
22].
- แยก reasoning ออกจาก evidence reasoning controls อาจทำให้ workflow ทำงานดีขึ้น แต่เอกสารของ OpenAI และ Anthropic อธิบายสิ่งเหล่านี้ในฐานะกลไกการให้เหตุผลหรือการคิด ไม่ใช่ตัวแทนของ claim ที่เชื่อมกับแหล่งข้อมูล [
42][
43][
55][
76].
- ให้มนุษย์ตรวจ claim สำคัญเสมอ เอกสารผู้ให้บริการอธิบายฟีเจอร์ citations และพฤติกรรมการแสดงผล แต่ไม่ได้รับประกันโดยอิสระว่า claim ทุกข้อที่มี citation จะถูกต้อง งานที่มีความเสี่ยงสูงจึงยังต้องตรวจเทียบกับหลักฐานต้นทาง
สรุปท้ายบท
เอกสารที่ตรวจสอบได้สนับสนุนการเปรียบเทียบแบบระมัดระวัง ไม่ใช่ลีดเดอร์บอร์ด ฝั่ง OpenAI มีหลักฐานชัดกว่าในชุดนี้เรื่องข้อกำหนด citations ที่ผู้ใช้เห็นได้สำหรับงานวิจัยบนเว็บ เพราะ Deep Research ระบุว่าเมื่อแสดงข้อมูลจากเว็บต่อผู้ใช้ ควรมี inline citations ที่เห็นชัดและคลิกได้ [23]. ฝั่ง Anthropic มีหลักฐานชัดกว่าในชุดนี้เรื่อง citations ของ Claude ที่อิงเอกสาร เพราะเอกสารอธิบายการเปิดใช้ citations กับเอกสารที่ส่งให้โมเดล และการควบคุมความละเอียดผ่านการแบ่งประโยคกับ custom content [
77].
Claude Opus 4.7 ถูกระบุว่าเป็นโมเดลที่เปิดใช้ทั่วไปและมีความสามารถสูงสุดของ Anthropic สำหรับงานซับซ้อน แต่แหล่งข้อมูลเฉพาะโมเดลของ OpenAI ที่ตรวจสอบในชุดนี้คือ GPT-5.4 ไม่ใช่ GPT-5.5 Spud [53][
65][
75]. ถ้าเป้าหมายคือ AI research ที่ตรวจสอบย้อนหลังได้ ควรเปรียบเทียบการเก็บแหล่งข้อมูล ความละเอียดของ citations และแนวทาง validation ก่อนเปรียบเทียบชื่อโมเดล




