53 lines
4.9 KiB
Markdown
53 lines
4.9 KiB
Markdown
---
|
||
title: "Public Cloud Learning Sessions - Budget Control - 20240319"
|
||
type: source
|
||
tags: [FinOps, AWS, Cost-Optimization, Budget-Control, Alerting]
|
||
date: 2024-03-19
|
||
sources: [Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md]
|
||
last_updated: 2026-04-26
|
||
---
|
||
|
||
## Source File
|
||
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:AWS 预算控制自动化系统——面向 SRE Core 团队(Daniela、Evan、Alan)的内部学习分享
|
||
- 问题域:AWS 账户蔓延导致的成本失控,以及现有成本削减措施不可持续的问题
|
||
- 方法/机制:AWS Budget → SNS → Lambda → Step Functions → SCP Enforcement(服务控制策略封禁新资源创建)的完整告警与执行链路;Source Identity 追踪跨角色切换的原始登录身份
|
||
- 结论/价值:提供账户级别的详细告警(支出预测/实际支出/成本驱动因素),并将 Enforcement 从手动审批逐步演进为自动封禁
|
||
|
||
## Key Claims(用中文描述)
|
||
- SRE Core 团队通过 AWS Budget 服务 + 自定义 Lambda/Step Functions 构建的自动化预算控制,解决了 AWS 账户蔓延导致的成本失控问题
|
||
- 告警类型分为 4 种:Forecast(预测超支)、Actual(实际超支 80%/90%/95%/98%)、Severe(100% 且评分制触发)、Enforcement(100% 且启用强制执行则触发 SCP 封禁)
|
||
- Source Identity(AWS Source Identity 属性)通过 CloudTrail 跨角色切换追踪原始登录用户,解决了联邦登录(NetIQ)中"假设角色后无法识别原始身份"的问题
|
||
- 评分系统(Scoring System)根据账户规模和月末时间节点计算宽限期(Grace Period),避免轻微超支的账户被误处罚
|
||
- 初始实施范围仅限 Lab 账户,其他账户继续接收标准超预算告警
|
||
|
||
## Key Quotes
|
||
> "This is the first time that we were able to get to this level of granularity." — Daniel,描述通过 Athena + Cost Explorer 实现的资源级成本粒度
|
||
|
||
## Key Concepts
|
||
- [[AWS-Source-Identity]]:通过 `sts:SourceIdentity` 属性在假设角色后保留原始登录身份,使 CloudTrail 可追踪跨角色用户活动
|
||
- [[FinOps]]:云财务管理,本质是将财务责任与工程实践结合,本 Source 展示 FinOps 执行层(告警→Enforcement)的自动化实现
|
||
- [[AWS-Budget-Alerts]]:AWS Budget 服务原生的预算告警机制,通过 SNS → Lambda → Step Functions 扩展为详细告警邮件
|
||
- [[SCP-Enforcement]]:Service Control Policy,在 100% 预算触发时自动封禁账户新资源创建,实现成本治理的"硬执行"
|
||
- [[CloudTrail]]:AWS 审计日志服务,Source Identity 机制使其能追踪联邦登录跨角色切换的完整用户链
|
||
- [[Step-Functions]]:AWS Step Functions 编排 Lambda 和数据增强逻辑,实现告警流程自动化
|
||
- [[Cost-Explorer]]:AWS 成本分析工具,提供用户维度的日度支出数据,用于 top users 报告
|
||
|
||
## Key Entities
|
||
- [[Daniela]]:SRE Core 团队成员,负责图表和详细成本报告讲解(提及 <2 次,wikilink 记录)
|
||
- [[Evan]]:SRE Core 团队成员(提及 <2 次,wikilink 记录)
|
||
- [[Alan]]:SRE Core 团队成员,负责 AWS Budget Alerts and Actions 实现细节讲解(提及 <2 次,wikilink 记录)
|
||
- [[SRE-Core-Team]]:预算控制自动化系统的开发团队,由 Daniela、Evan、Alan 三人组成
|
||
- [[Phenops-Team]]:FinOps 执行团队,本 Source 中负责预算分配和 Enforcement 审批决策
|
||
- [[NetIQ]]:联邦身份管理系统(NetIQ Access Manager),用于用户认证并提供 Source Identity 的上游身份
|
||
|
||
## Connections
|
||
- [[ctp-topic-13-cloud-finops-policies]] ← extends ← [[public-cloud-learning-sessions-budget-control-20240319]]:Topic 13 定义 FinOps 政策框架(成本管理→成本优化→治理自动化三层),本 Source 展示"治理与自动化"层(Budget Enforcement)的具体技术实现
|
||
- [[ctp-topic-63-optimise-resource-cost-using-automation]] ← relates_to ← [[public-cloud-learning-sessions-budget-control-20240319]]:Topic 63 聚焦 RightSizing/承诺计划等主动优化手段,本 Source 聚焦被动告警+强制执行机制,两者互补构成 FinOps 完整闭环
|
||
- [[public-cloud-learning-sessions-reducing-cloud-costs-20250318]] ← extends ← [[public-cloud-learning-sessions-budget-control-20240319]]:2025 版主讲 Vinay(FinOps Lead),补充了 Savings Plans/RI 承诺计划,本 Source 是 2024 早期版本,两者构成 FinOps 知识演进
|
||
|
||
## Contradictions
|
||
- 与 [[ctp-topic-13-cloud-finops-policies]] 关于 Enforcement 方式:Topic 13 提到"集中式上线/策略开发/自动报告",本 Source 明确提出 SCP 自动封禁新资源作为 Enforcement 手段;两者不矛盾,Topic 13 描述政策层面,本 Source 描述执行层面
|