JawabanDipublikasikanminggu laluLast edited 5 hari yang lalu16 sumber

Cara Microsoft Menangkap Kegagalan Agen AI Sebelum Masuk Produksi dengan Kerangka ASSERT

ASSERT (Adaptive Spec driven Scoring for Evaluation and Regression Testing) adalah kerangka sumber terbuka yang mengonversi aturan perilaku bahasa Inggris sederhana menjadi rangkaian pengujian yang dapat dieksekusi da... Alat ini menghasilkan skenario adversarial, mencatat setiap panggilan alat (tool call), dan meny...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

682K0

Abstract visualization representing Microsoft ASSERT framework converting natural-language AI behavior policies into structured, scored test suites for agent evaluation — What is Microsoft's ASSERT framework, announced at Build 2026, and how does it convert natural-language AI behavior policies into structuredMicrosoft's ASSERT framework automates the translation of plain-English behavior rules into executable, scored evaluation suites.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: What is Microsoft's ASSERT framework, announced at Build 2026, and how does it convert natural-language AI behavior policies into structured. Article summary: Here is a concise answer based on the official Microsoft sources and trusted reporting.. Topic tags: general, general web. Reference image context from search candidates: Reference image 1: visual subject "# Build agents you can trust across any framework with open evals and a control standard. The gap is concrete: written policies do not translate into working runtime controls, eval" source context "Build agents you can trust across any framework with open evals ..." Reference image 2: visual subject "# Microsoft is making AI behavior testing easier for developers. Microsoft has released ASSERT, an open-source framework that turns plain-language AI behavior re
openai.com

Di konferensi pengembang Build 2026 pada 2 Juni 2026, Microsoft mengumumkan ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) dan merilisnya sebagai proyek sumber terbuka di bawah naungan Responsible AI di GitHub . Kerangka kerja ini mengatasi masalah yang kian pelik dalam pengembangan AI agentik: bagaimana memverifikasi bahwa agen otonom akan menghormati aturan spesifik dan batasan keamanan produk Anda sebelum berinteraksi dengan pengguna atau sistem nyata. Tolok ukur AI tradisional—yang mengukur kebergunaan, toksisitas, atau akurasi umum—sering kali luput mendeteksi kegagalan kritis pada perilaku spesifik aplikasi, seperti agen yang mengeluarkan pengembalian dana tanpa otorisasi atau membagikan data rahasia ke penerima yang salah . ASSERT menutup celah ini dengan memperlakukan spesifikasi perilaku berbahasa alami sebagai input utama untuk evaluasi, bukan sekadar konteks latar belakang.

Cara ASSERT Mengubah Kata-Kata Menjadi Rangkaian Uji

ASSERT mengikuti alur lima langkah yang mengubah maksud tertulis pengembang menjadi evaluasi yang terstruktur dan bisa didiagnosis:

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Cara Microsoft Menangkap Kegagalan Agen AI Sebelum Masuk Produksi dengan Kerangka ASSERT"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Tidak seperti tolok ukur generik untuk kebergunaan atau toksisitas, ASSERT menargetkan batasan perilaku spesifik aplikasi, seperti mengevaluasi apakah agen mengikuti aturan dan batasan produk yang tepat yang ditulis o...

Sumber

Comments

0 comments

Loading comments...