chore: sync local project changes
This commit is contained in:
@@ -1,31 +1,31 @@
|
||||
---
|
||||
title: "LLMasJudge"
|
||||
type: concept
|
||||
tags: ["evaluation", "llm-evaluation", "quality-assurance"]
|
||||
sources: ["engineering-autonomous-optimization-architect"]
|
||||
last_updated: 2026-04-26
|
||||
---
|
||||
|
||||
## Aliases
|
||||
- LLM as a Judge
|
||||
- LLM-as-Judge
|
||||
- LLM-as-a-Judge Grading
|
||||
|
||||
## Definition
|
||||
LLM-as-a-Judge 是 [[AutonomousOptimizationArchitect]] 的评分机制——使用一个独立的 LLM(如 Claude Opus)作为"裁判",对实验模型和生产模型的输出进行客观评分,避免人工评审的主观偏差。评分维度包括:JSON 格式正确性(5分)、延迟(3分)、幻觉检测(-10分)等。
|
||||
|
||||
## Mechanism
|
||||
1. **评分标准预先建立**:在 [[ShadowTraffic]] 测试前,[[AutonomousOptimizationArchitect]] 明确建立数学评分标准
|
||||
2. **异步评估**:实验模型和生产模型同时处理任务,裁判 LLM 盲评两者输出
|
||||
3. **统计分析**:累积足够样本后进行统计显著性检验
|
||||
4. **自主决策**:实验模型显著优于基准时,更新路由权重
|
||||
|
||||
## Key Properties
|
||||
- **客观性**:消除人工评分的主观偏差
|
||||
- **可扩展**:可同时评估多个 Provider 的输出
|
||||
- **数据驱动**:评分结果直接驱动 [[SemanticRouting]] 决策
|
||||
|
||||
## Connections
|
||||
- [[AutonomousOptimizationArchitect]] — LLM-as-Judge 是核心评估工具
|
||||
- [[ShadowTraffic]] — 提供实验与基准并行执行的流量环境
|
||||
- [[SemanticRouting]] — 评分结果更新路由权重
|
||||
---
|
||||
title: "LLMasJudge"
|
||||
type: concept
|
||||
tags: ["evaluation", "llm-evaluation", "quality-assurance"]
|
||||
sources: ["engineering-autonomous-optimization-architect"]
|
||||
last_updated: 2026-04-26
|
||||
---
|
||||
|
||||
## Aliases
|
||||
- LLM as a Judge
|
||||
- LLM-as-Judge
|
||||
- LLM-as-a-Judge Grading
|
||||
|
||||
## Definition
|
||||
LLM-as-a-Judge 是 [[AutonomousOptimizationArchitect]] 的评分机制——使用一个独立的 LLM(如 Claude Opus)作为"裁判",对实验模型和生产模型的输出进行客观评分,避免人工评审的主观偏差。评分维度包括:JSON 格式正确性(5分)、延迟(3分)、幻觉检测(-10分)等。
|
||||
|
||||
## Mechanism
|
||||
1. **评分标准预先建立**:在 [[ShadowTraffic]] 测试前,[[AutonomousOptimizationArchitect]] 明确建立数学评分标准
|
||||
2. **异步评估**:实验模型和生产模型同时处理任务,裁判 LLM 盲评两者输出
|
||||
3. **统计分析**:累积足够样本后进行统计显著性检验
|
||||
4. **自主决策**:实验模型显著优于基准时,更新路由权重
|
||||
|
||||
## Key Properties
|
||||
- **客观性**:消除人工评分的主观偏差
|
||||
- **可扩展**:可同时评估多个 Provider 的输出
|
||||
- **数据驱动**:评分结果直接驱动 [[SemanticRouting]] 决策
|
||||
|
||||
## Connections
|
||||
- [[AutonomousOptimizationArchitect]] — LLM-as-Judge 是核心评估工具
|
||||
- [[ShadowTraffic]] — 提供实验与基准并行执行的流量环境
|
||||
- [[SemanticRouting]] — 评分结果更新路由权重
|
||||
|
||||
Reference in New Issue
Block a user