Projectsへ戻る

Python
LLM
AI Evaluation
Research
Automation

AI Agent Evaluation Framework

Not A Hotel Inc. で、LLM as a Judge を使う AI agent 評価の方法を研究・実装しています。

Overview

Not A Hotel Inc. で、AI agent の振る舞いを評価する取り組みを続けています。LLM as a Judge を使い、システムの出力を人手だけに頼らず調べる方法を試しています。

評価基準を決め、同じ手順をプロダクトの領域や研究課題で繰り返せるように、ツールも作っています。判定の一貫性、使える指標、評価に混ざる偏りを確かめています。どの評価基準が日々の運用で使えるかは、まだ検証中です。

What I Built

LLM as a Judge

LLM に別のシステムの出力を判定させる自動評価を試しています。
繰り返せる基準

複数回の実行や異なるタスクでも、AI agent の振る舞いを比べられる基準を検討しています。
流用できる評価

プロダクトの領域と研究課題のあいだで使い回せる評価パターンを探っています。
評価の道具

同じ方法を安定して回すためのツールを実装しています。

Problems

LLM による判定を、繰り返しても一貫させること。
多様な AI agent のタスクで役立つ指標を決めること。
自動評価の流れに入る偏りを抑えること。

Results

AI agent の振る舞いを自動で調べる仕組みを試作中です。
プロダクトと研究で繰り返し使える評価方法を検討しています。
信頼性、指標、評価の偏りを確かめる実験を続けています。