Perbandingan model AI mudah terdengar meyakinkan: model ini lebih pintar, model itu lebih rapi menyitir, yang satu lebih cocok untuk riset. Masalahnya, klaim seperti itu sering sulit diaudit. Untuk pekerjaan riset yang harus bisa dipertanggungjawabkan, pertanyaan utamanya bukan hanya model mana yang menang, melainkan dari mana klaim berasal dan apakah buktinya bisa diperiksa.
Dalam dokumen yang ditinjau di sini, Anthropic menyebut Claude Opus 4.7 sebagai bagian dari generasi terbaru Claude dan sebagai model yang paling mampu, tersedia secara umum, untuk tugas kompleks. Sementara itu, panduan OpenAI yang spesifik model dalam cakupan adalah GPT-5.4, bukan GPT-5.5 Spud [53][
65][
75]. Jadi kesimpulan yang paling jujur bukanlah pemenang. Kesimpulannya adalah daftar cek provenance, atau jejak asal-usul bukti.
Jawaban singkat yang bisa diverifikasi
Tidak ada hasil langsung Claude Opus 4.7 vs GPT-5.5 Spud tentang provenance riset yang bisa diverifikasi dari sumber-sumber ini. Yang bisa diverifikasi lebih sempit: OpenAI mendokumentasikan persyaratan sitasi web yang menghadap pengguna untuk Deep Research, sedangkan Anthropic mendokumentasikan sitasi berbasis dokumen untuk Claude saat dokumen diberikan dan citations diaktifkan [23][
77].
Bagi pembeli, pengembang, editor, dan peneliti, temuan sempit ini justru lebih berguna daripada papan peringkat. Provenance riset bergantung pada kemampuan sebuah alur kerja untuk menghubungkan klaim penting dengan bukti yang bisa diperiksa manusia: URL, file, potongan dokumen, hasil retrieval, atau artefak lain yang memang disimpan dan bisa dibuka kembali.
Apa saja yang harus ada dalam jejak bukti
Alur kerja riset AI yang kredibel perlu memisahkan tiga hal yang sering tercampur:
- Sitasi: penanda yang terlihat dari klaim ke sumber.
- Penyimpanan sumber: retensi dokumen, laman web, file, chunk, atau artefak retrieval yang dipakai untuk membuat jawaban.
- Artefak penalaran: ringkasan proses berpikir, scratchpad, atau kontrol reasoning internal yang mungkin membantu desain alur kerja, tetapi tidak otomatis membuktikan asal sebuah klaim faktual.
Sitasi adalah lapisan yang paling mudah dilihat. Namun sitasi saja belum cukup. Uji yang lebih kuat adalah apakah peninjau bisa bergerak dari satu klaim ke materi pendukung yang tepat, lalu memeriksanya.
OpenAI: bukti terkuat ada pada tampilan sitasi web
Bukti provenance OpenAI yang paling jelas dalam sumber ini muncul di dokumentasi Deep Research. Ketika hasil web, atau informasi dari hasil web, ditampilkan kepada pengguna akhir, sitasi inline harus dibuat terlihat jelas dan dapat diklik [23]. Ini penting karena jejak bukti menjadi lemah jika tautan disembunyikan di metadata atau terpisah dari klaim yang seharusnya didukung.
OpenAI juga menyediakan panduan pemformatan sitasi untuk menyiapkan materi yang bisa disitir dan mengarahkan model agar memformat sitasi secara efektif [22]. Contoh Deep Research API menyebut bahwa respons mencakup jawaban akhir terstruktur dengan sitasi inline, ringkasan langkah penalaran, dan informasi sumber [
24]. Help Center OpenAI juga menyatakan bahwa keluaran Deep Research mencakup sitasi atau tautan sumber agar pengguna dapat memverifikasi informasi [
30].
Kesimpulan yang didukung di sini tetap terbatas: OpenAI eksplisit soal presentasi sitasi untuk alur riset web. Itu tidak membuktikan bahwa setiap sitasi selalu akurat, dan tidak membuktikan apa pun yang spesifik tentang GPT-5.5 Spud.
Anthropic: bukti terkuat ada pada sitasi berbasis dokumen
Dokumentasi Anthropic paling kuat di dua area: posisi Claude Opus 4.7 dan mekanisme sitasi berbasis dokumen. Anthropic menggambarkan Claude Opus 4.7 sebagai bagian dari generasi terbaru Claude dan merekomendasikannya untuk tugas paling kompleks sebagai model yang paling mampu dan tersedia secara umum [53][
65].
Untuk provenance, sumber kuncinya adalah dokumentasi citations Anthropic. Dokumentasi itu menyatakan bahwa Claude dapat memberikan sitasi terperinci saat menjawab pertanyaan tentang dokumen, membantu pengguna melacak dan memverifikasi sumber informasi, ketika dokumen diberikan dan citations diaktifkan [77]. Dokumentasi yang sama juga menjelaskan granularitas sitasi: dokumen teks biasa dan PDF secara default dipecah otomatis menjadi kalimat, sedangkan custom content documents dapat digunakan saat pengembang membutuhkan kontrol yang lebih halus [
77].
Dokumentasi dukungan PDF Anthropic menambahkan detail lain: analisis visual PDF di Converse API mensyaratkan citations diaktifkan [58]. Anthropic juga mendokumentasikan Files API, yang memungkinkan pengembang mengunggah dan mengelola file untuk penggunaan Claude API tanpa mengunggah ulang konten yang sama pada setiap permintaan [
52]. Pengelolaan file bukan bukti akurasi sitasi, tetapi dapat membantu audit trail yang lebih kuat jika dipadukan dengan penyimpanan sumber dan sitasi pada level klaim.
Scratchpad dan thinking block bukan bukti sumber
Jebakan terbesar dalam menilai provenance riset adalah memperlakukan artefak penalaran model sebagai bukti sumber. Keduanya tidak sama.
Halaman praktik terbaik reasoning OpenAI menyatakan bahwa model reasoning melakukan penalaran secara internal dan menyarankan pengembang untuk tidak meminta model berpikir langkah demi langkah atau menjelaskan chain of thought [42]. Panduan reasoning models OpenAI berfokus pada kontrol seperti reasoning effort, reasoning tokens, dan menjaga state penalaran lintas giliran [
43].
Anthropic memakai lebih banyak istilah seputar mekanisme thinking. Dokumentasi prompt caching menyatakan bahwa thinking blocks memiliki perilaku khusus ketika extended thinking digunakan bersama prompt caching [55]. Dokumentasi extended thinking membedakan full thinking tokens dari keluaran yang diringkas pada Claude 4 dan model setelahnya [
76]. Catatan rilis Anthropic menjelaskan field display yang dapat menghilangkan thinking content dari respons, dan dokumentasi Claude Code menyebut bahwa menambahkan ultrathink ke sebuah skill mengaktifkan extended thinking pada skill tersebut [
66][
63].
Fitur-fitur itu dapat membantu pengembang menyetel alur kerja yang kompleks. Namun scratchpad, chain of thought tersembunyi, atau ringkasan reasoning tidak membuktikan bahwa klaim faktual berasal dari URL, dokumen, atau file tertentu. Perlakukan artefak penalaran sebagai konteks sekunder, bukan sebagai jalur audit sumber.
Checklist praktis untuk alur kerja riset AI
Daripada memilih hanya berdasarkan nama model, nilai apakah keseluruhan alur kerja bisa bertahan saat ditinjau.
- Sitasi terlihat pada level klaim. Untuk informasi dari web, dokumentasi Deep Research OpenAI meminta sitasi inline yang terlihat jelas dan dapat diklik [
23]. Untuk alur dokumen Claude, Anthropic mendokumentasikan sitasi saat dokumen diberikan dan citations diaktifkan [
77].
- Artefak sumber bisa diperiksa. Simpan materi di balik jawaban, bukan hanya teks akhirnya. Contoh Deep Research API OpenAI merujuk pada informasi sumber, sedangkan Files API Anthropic mendukung input file yang dapat digunakan kembali dalam alur Claude API [
24][
52].
- Granularitas sitasi jelas. Sitasi yang berguna harus menunjuk ke bukti yang relevan, bukan sekadar keranjang sumber yang terlalu luas. Anthropic mendokumentasikan pemecahan kalimat default untuk dokumen teks biasa dan PDF, serta custom content documents untuk kontrol lebih halus [
77]. OpenAI secara terpisah menyediakan panduan menyiapkan materi yang bisa disitir dan memformat sitasi [
22].
- Reasoning dipisahkan dari evidence. Kontrol reasoning dapat memperbaiki perilaku alur kerja, tetapi OpenAI dan Anthropic menggambarkannya sebagai mekanisme penalaran atau thinking, bukan pengganti klaim yang tertaut ke sumber [
42][
43][
55][
76].
- Validasi manusia tetap wajib untuk klaim penting. Dokumentasi vendor menjelaskan fitur sitasi dan perilaku tampilan; itu bukan jaminan independen bahwa setiap klaim yang disitir pasti benar. Keluaran penting tetap perlu dicek terhadap materi sumbernya.
Kesimpulan
Dokumen yang ditinjau mendukung perbandingan yang bernuansa, bukan leaderboard. Dalam sumber ini, OpenAI memiliki bukti lebih jelas untuk persyaratan sitasi web yang menghadap pengguna karena Deep Research secara eksplisit meminta sitasi inline yang terlihat dan dapat diklik ketika informasi dari web ditampilkan kepada pengguna [23]. Anthropic memiliki bukti lebih jelas untuk sitasi Claude yang berbasis dokumen karena dokumentasinya menjelaskan aktivasi citations pada dokumen yang diberikan serta kontrol granularitas melalui pemecahan kalimat dan custom content [
77].
Claude Opus 4.7 terdokumentasi sebagai model Anthropic yang paling mampu dan tersedia secara umum untuk tugas kompleks, tetapi sumber OpenAI yang spesifik model dalam tinjauan ini adalah GPT-5.4, bukan GPT-5.5 Spud [53][
65][
75]. Jika tujuan Anda adalah riset AI yang bisa diaudit, bandingkan penyimpanan sumber, granularitas sitasi, dan praktik validasi sebelum membandingkan nama model.




