Apresentamos o EVAL Engine (Arquitetura de Validação de Avaliação), uma estrutura descentralizada para avaliar agentes de IA com foco em agentes nativos de criptomoedas por meio de avaliações verificáveis em tempo real e capacidades de aprendizado contínuo.
Nosso sistema utiliza a arquitetura de blockchain relacional sem gás da Chromia para permitir avaliações transparentes, imutáveis e econômicas do desempenho de agentes de IA. O sistema incorpora múltiplos LLM-como-juiz[1] e métricas de engajamento social para aprendizado por reforço contínuo via loop de feedback e sistema de recompensa.
Demonstramos que o EVAL Engine pode alcançar avaliações eficientes e seguras enquanto se adapta a mudanças impulsionadas pelo engajamento por meio de loops de feedback.
Também apresentamos um roteiro abrangente para o desenvolvimento do EVAL Engine, incluindo desenvolvimento de API, preparação de dados, desenvolvimento de modelo e implantação de modelo.