nexus/wiki/concepts/LLMasJudge.md

---
title: "LLMasJudge"
type: concept
tags: ["evaluation", "llm-evaluation", "quality-assurance"]
sources: ["engineering-autonomous-optimization-architect"]
last_updated: 2026-04-26
---

## Aliases
- LLM as a Judge
- LLM-as-Judge
- LLM-as-a-Judge Grading

## Definition
LLM-as-a-Judge 是 [[AutonomousOptimizationArchitect]] 的评分机制——使用一个独立的 LLM（如 Claude Opus）作为"裁判"，对实验模型和生产模型的输出进行客观评分，避免人工评审的主观偏差。评分维度包括：JSON 格式正确性（5分）、延迟（3分）、幻觉检测（-10分）等。

## Mechanism
1. **评分标准预先建立**：在 [[ShadowTraffic]] 测试前，[[AutonomousOptimizationArchitect]] 明确建立数学评分标准
2. **异步评估**：实验模型和生产模型同时处理任务，裁判 LLM 盲评两者输出
3. **统计分析**：累积足够样本后进行统计显著性检验
4. **自主决策**：实验模型显著优于基准时，更新路由权重

## Key Properties
- **客观性**：消除人工评分的主观偏差
- **可扩展**：可同时评估多个 Provider 的输出
- **数据驱动**：评分结果直接驱动 [[SemanticRouting]] 决策

## Connections
- [[AutonomousOptimizationArchitect]] — LLM-as-Judge 是核心评估工具
- [[ShadowTraffic]] — 提供实验与基准并行执行的流量环境
- [[SemanticRouting]] — 评分结果更新路由权重