我們提出 EVAL Engine(評估驗證架構),這是一個用於評估 AI agents 的去中心化框架,專注於透過可驗證的即時評估和持續學習能力來評估加密原生 agents。
我們的系統利用 Chromias 無 gas 的關係型區塊鏈架構,實現對 AI agent 表現的透明、不可變且經濟高效的評估。該系統結合了多個 LLM-as-a-judge[1] 和社交參與指標,通過反饋循環和獎勵系統進行持續強化學習。
我們展示 EVAL Engine 能夠實現高效、安全的評估,同時通過參與驅動的反饋循環適應不斷變化的績效標準。
我們還提出了 EVAL Engine 開發的全面路線圖,包括 API 開發、數據準備、模型開發和模型部署。