32 lines
1.4 KiB
Markdown
32 lines
1.4 KiB
Markdown
---
|
||
title: "LLMasJudge"
|
||
type: concept
|
||
tags: ["evaluation", "llm-evaluation", "quality-assurance"]
|
||
sources: ["engineering-autonomous-optimization-architect"]
|
||
last_updated: 2026-04-26
|
||
---
|
||
|
||
## Aliases
|
||
- LLM as a Judge
|
||
- LLM-as-Judge
|
||
- LLM-as-a-Judge Grading
|
||
|
||
## Definition
|
||
LLM-as-a-Judge 是 [[AutonomousOptimizationArchitect]] 的评分机制——使用一个独立的 LLM(如 Claude Opus)作为"裁判",对实验模型和生产模型的输出进行客观评分,避免人工评审的主观偏差。评分维度包括:JSON 格式正确性(5分)、延迟(3分)、幻觉检测(-10分)等。
|
||
|
||
## Mechanism
|
||
1. **评分标准预先建立**:在 [[ShadowTraffic]] 测试前,[[AutonomousOptimizationArchitect]] 明确建立数学评分标准
|
||
2. **异步评估**:实验模型和生产模型同时处理任务,裁判 LLM 盲评两者输出
|
||
3. **统计分析**:累积足够样本后进行统计显著性检验
|
||
4. **自主决策**:实验模型显著优于基准时,更新路由权重
|
||
|
||
## Key Properties
|
||
- **客观性**:消除人工评分的主观偏差
|
||
- **可扩展**:可同时评估多个 Provider 的输出
|
||
- **数据驱动**:评分结果直接驱动 [[SemanticRouting]] 决策
|
||
|
||
## Connections
|
||
- [[AutonomousOptimizationArchitect]] — LLM-as-Judge 是核心评估工具
|
||
- [[ShadowTraffic]] — 提供实验与基准并行执行的流量环境
|
||
- [[SemanticRouting]] — 评分结果更新路由权重
|