Sync: add aws source identity notes
This commit is contained in:
66
wiki/concepts/AWS-Source-Identity.md
Normal file
66
wiki/concepts/AWS-Source-Identity.md
Normal file
@@ -0,0 +1,66 @@
|
||||
---
|
||||
title: "AWS Source Identity"
|
||||
type: concept
|
||||
tags: [AWS, Security, IAM, Auditing, FinOps]
|
||||
created: 2026-04-26
|
||||
updated: 2026-04-26
|
||||
sources: [Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md]
|
||||
last_updated: 2026-04-26
|
||||
---
|
||||
|
||||
# AWS Source Identity
|
||||
|
||||
> **Source Identity** 是 AWS STS(Security Token Service)的一个属性,通过 `sts:SourceIdentity` 在用户假设 IAM 角色时保留原始登录身份,使 CloudTrail 能够追踪联邦登录(Federated Login)跨角色切换的完整用户链。
|
||||
|
||||
## 定义
|
||||
|
||||
在 AWS 联邦身份认证场景中,用户通过身份提供商(IdP,如 NetIQ Access Manager)认证后,会假设多个 IAM 角色在不同账户间跳转。**默认情况下,CloudTrail 只记录假设角色后的角色身份,无法追溯到原始登录用户。**
|
||||
|
||||
Source Identity 通过在 `AssumeRole` 请求中携带 `SourceIdentity` 参数,解决了这一问题:
|
||||
|
||||
```
|
||||
aws sts assume-role \
|
||||
--role-arn arn:aws:iam::123456789012:role/MyRole \
|
||||
--source-identity alice@example.com
|
||||
```
|
||||
|
||||
## 核心价值
|
||||
|
||||
| 维度 | 无 Source Identity | 有 Source Identity |
|
||||
|------|-------------------|-------------------|
|
||||
| 审计追踪 | 只能看到角色身份 | 可见原始用户身份 |
|
||||
| FinOps 场景 | 无法关联账户支出到具体用户 | 可将成本责任追溯到个人 |
|
||||
| 安全调查 | 难以定位跨角色操作的发起人 | 可完整还原操作路径 |
|
||||
| 合规审计 | 不满足最小权限追溯要求 | 满足审计链要求 |
|
||||
|
||||
## 在 FinOps 中的应用
|
||||
|
||||
在 [[Budget-Control-Automation]] 场景中,SRE Core 团队通过 Source Identity 实现:
|
||||
- **用户维度的成本归因**:通过 CloudTrail + Source Identity 将每个 AWS API 调用关联到具体个人
|
||||
- **Top Users 报告**:利用 Cost Explorer 数据 + CloudTrail Source Identity 识别账户内日度支出最高的用户
|
||||
- **成本责任到人**:账户 owner 可精确定位哪些团队成员产生了异常支出
|
||||
|
||||
## 与 AWS 服务的集成
|
||||
|
||||
- **CloudTrail**:Source Identity 字段记录在 CloudTrail 日志的 `userIdentity` 块中
|
||||
- **STS (Security Token Service)**:`AssumeRole`、`AssumeRoleWithSAML`、`AssumeRoleWithWebIdentity` 均支持 Source Identity
|
||||
- **Cost Explorer**:结合 Source Identity 数据可实现用户维度的成本分析
|
||||
- **AWS Budgets**:告警流程中的 Lambda 函数可查询 CloudTrail Source Identity 数据进行用户归因
|
||||
|
||||
## 关键约束
|
||||
|
||||
- Source Identity 只能**设置**,不能**覆盖**:一旦设置为某个值,在当前会话期间无法更改
|
||||
- Source Identity 有长度限制(最大 64 字符)
|
||||
- 需要 IAM 角色显式授权 `sts:TagSession` 和 `sts:SourceIdentity` 权限才能使用
|
||||
- NetIQ Access Manager 等联邦 IdP 需要配置为在假设角色请求中传递 Source Identity
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[CloudTrail]]:AWS 审计日志服务,Source Identity 使其具备跨角色用户追踪能力
|
||||
- [[IAM-Roles]]:Source Identity 在角色假设场景中使用
|
||||
- [[Federated-Identity]]:联邦身份管理(如 NetIQ),Source Identity 解决其跨角色追踪盲区
|
||||
- [[FinOps]]:FinOps 审计和成本归因需要 Source Identity 提供用户级可见性
|
||||
|
||||
## 来源
|
||||
|
||||
本概念页基于 [[public-cloud-learning-sessions-budget-control-20240319]](SRE Core 团队 Budget Control 自动化学习分享)中关于 Source Identity 实现细节的记录。
|
||||
@@ -4,6 +4,9 @@
|
||||
- [Overview](overview.md) — living synthesis
|
||||
|
||||
## Sources
|
||||
- [2026-04-24] [Public Cloud Learning Sessions - Budget Control - 20240319](sources/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md)
|
||||
- [2026-04-24] [CTP Topic 63 Optimise resource cost using automation](sources/ctp-topic-63-optimise-resource-cost-using-automation.md)
|
||||
- [2026-04-24] [Public Cloud Learning Sessions - Storage Cost Optimization - 20240305](sources/public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting.md)
|
||||
- [2026-04-24] [CTP Topic 71 PCG's guide to RightSizing, why, how when](sources/ctp-topic-71-pcgs-guide-to-rightsizing-why-how-when.md)
|
||||
- [2026-04-24] [Public Cloud Learning Sessions - Best practices for EC2 cost optimization in AWS - 20240529](sources/public-cloud-learning-sessions-best-practices-for-ec2-cost-optimization-in-aws-2.md)
|
||||
- [2026-04-24] [Public Cloud Learning Sessions - Reducing Cloud Costs - 20250318](sources/public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco.md)
|
||||
@@ -411,9 +414,6 @@
|
||||
- [2026-04-19] [public-cloud-learning-sessions-introduction-to-artificial-intelligence-ai-machin](sources/public-cloud-learning-sessions-introduction-to-artificial-intelligence-ai-machin.md) — (expected: wiki/sources/public-cloud-learning-sessions-introduction-to-artificial-intelligence-ai-machin.md — source missing)
|
||||
- [2026-04-19] [cloud-learning-master-index](sources/cloud-learning-master-index.md) — (expected: wiki/sources/cloud-learning-master-index.md — source missing)
|
||||
- [2026-04-19] [ctp-topic-27-aws-instance-scheduler](sources/ctp-topic-27-aws-instance-scheduler.md) — (expected: wiki/sources/ctp-topic-27-aws-instance-scheduler.md — source missing)
|
||||
- [2026-04-19] [public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording](sources/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md) — (expected: wiki/sources/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md — source missing)
|
||||
- [2026-04-19] [ctp-topic-63-optimise-resource-cost-using-automation](sources/ctp-topic-63-optimise-resource-cost-using-automation.md) — (expected: wiki/sources/ctp-topic-63-optimise-resource-cost-using-automation.md — source missing)
|
||||
- [2026-04-19] [public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting](sources/public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting.md) — (expected: wiki/sources/public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting.md — source missing)
|
||||
- [Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog](sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md) — (expected: wiki/sources/Your-AI-Isn-t-Stupid---It-Just-Needs-a-Better-Harness--Lychee-Technology-Engineering-Blog.md — source missing)
|
||||
- [Expose-hermes-agent-as-an-OpenAI-compatible-API-for-any-frontend](sources/Expose-hermes-agent-as-an-OpenAI-compatible-API-for-any-frontend.md) — (expected: wiki/sources/Expose-hermes-agent-as-an-OpenAI-compatible-API-for-any-frontend.md — source missing)
|
||||
- [zk-steward](sources/zk-steward.md) — (expected: wiki/sources/zk-steward.md — source missing)
|
||||
@@ -802,6 +802,7 @@
|
||||
- [Automated-Security-Audit](concepts/Automated-Security-Audit.md)
|
||||
- [Availability](concepts/Availability.md)
|
||||
- [AWS-Secrets-Manager](concepts/AWS-Secrets-Manager.md)
|
||||
- [AWS-Source-Identity](concepts/AWS-Source-Identity.md)
|
||||
- [AWS-Tagging-Standards](concepts/AWS-Tagging-Standards.md)
|
||||
- [AWS-Tags](concepts/AWS-Tags.md)
|
||||
- [BEATS](concepts/BEATS.md)
|
||||
|
||||
28
wiki/log.md
28
wiki/log.md
@@ -1,3 +1,11 @@
|
||||
## [2026-04-25] ingest | CTP Topic 63 Optimise resource cost using automation
|
||||
- Source file: Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/ctp-topic-63-optimise-resource-cost-using-automation.md
|
||||
- Status: ✅ 成功摄入
|
||||
- Summary: 使用自动化手段优化 AWS 云资源成本——五大策略:批准区域标准化、Graviton ARM 实例选型(比 Intel 便宜 20-25%)、承诺计划(1年 40% / 3年 64% 折扣)、GP2→GP3 存储优化(节省 20%)、基于标签的 EC2/RDS 自动化调度(每天只运行 10 小时可节省 70% 成本)
|
||||
- Concepts created: 无(已存在的 [[Savings-Plans]] 涵盖承诺计划;Graviton/RightSizing 等概念在本 wiki 中出现频次不足以独立建页)
|
||||
- Source page: wiki/sources/ctp-topic-63-optimise-resource-cost-using-automation.md
|
||||
- Notes: Pushka 演示 Terraform Scheduler 模块配置(`auto_shutdown = yes` 标签);无内容冲突
|
||||
|
||||
## [2026-04-24] ingest | Public Cloud Learning Sessions - Best practices for EC2 cost optimization in AWS - 20240529
|
||||
- Source file: Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-best-practices-for-ec2-cost-optimization-in-aws-2.md
|
||||
- Status: ✅ 成功摄入
|
||||
@@ -9,6 +17,16 @@
|
||||
- Notes: index.md 已更新(Sources 节新增条目);overview.md 已补充(FinOps 章节新增段落,置于 ctp-topic-13 后);Nitro-System 和 EC2-Purchase-Options 不存在于现有 Wiki,新建 Concept 页面;已建立与 public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco、ctp-topic-13-cloud-finops-policies 的 Connections 关系
|
||||
- Conflicts: 与 ctp-topic-14-octane-hub-on-aws 可能的冲突(Graviton 对有状态服务的适用性),已记录于 Source page Contradictions 节
|
||||
|
||||
## [2026-04-25] ingest | Public Cloud Learning Sessions - Storage Cost Optimization - 20240305
|
||||
- Source file: Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting.md
|
||||
- Status: ✅ 成功摄入
|
||||
- Summary: AWS EBS(GP3 20% 节省+独立扩展 IOPS/吞吐)、EFS/FSx(生命周期分层)、S3(Intelligent Tiering 自动冷热迁移+生命周期策略+PrivateLink 规避数据传输费)、ADM 三阶段迁移案例(OpenZFS → 自管理 NetApp on EC2 → FSx for NetApp ONTAP 实现 60% 成本削减)
|
||||
- Concepts linked: [[EBS-GP3]], [[EBS-Snapshot-Archive]], [[Data-Lifecycle-Manager]], [[AWS-Backup]], [[EFS-Infrequent-Access]], [[S3-Intelligent-Tiering]], [[S3-Lifecycle-Policies]], [[FSx-for-NetApp-ONTAP]], [[AWS-PrivateLink]], [[FinOps]], [[Cloud Cost Optimization]]
|
||||
- Entities linked: [[AWS]], [[ADM]]
|
||||
- Source page: wiki/sources/public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting.md
|
||||
- Notes: index.md 已更新(Sources 节新增条目,置于 ctp-topic-71 前);overview.md 已补充(FinOps 章节新增存储成本优化专题段落);ADM 提及仅 1 次,以 wikilink 形式记录于 Source page;所有 AWS 服务特性概念(EBS-GP3/Snapshot-Archive/EFS-IA/S3-IntelligentTiering 等)已记录于 Source page Key Concepts 节,暂不单独建页;已建立与 public-cloud-learning-sessions-reducing-cloud-costs-20250318、ctp-topic-13-cloud-finops-policies 的 Connections 关系
|
||||
- Conflicts: 与 ctp-topic-14-octane-hub-on-aws 可能的 EFS vs EBS 选型冲突,已记录于 Source page Contradictions 节
|
||||
|
||||
## [2026-04-25] ingest | Public Cloud Learning Sessions - Reducing Cloud Costs - 20250318
|
||||
- Source file: Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco.md
|
||||
- Status: ✅ 成功摄入
|
||||
@@ -31,6 +49,16 @@
|
||||
- Notes: PCG 和 Cloud Health 出现次数不足 2 次,不满足独立 Entity 页面创建条件,以 wikilink 形式记录于 Source page;index.md 已更新(替换 expected 条目为实际内容);overview.md Cloud Transformation 章节已补充(置于 ctp-topic-65 后);已建立与 ctp-topic-63(自动化调度优化)、ctp-topic-71(Rightsizing)、ctp-topic-27(AWS Instance Scheduler)的连接关系;FinOps 概念页已存在于 wiki/concepts/,无需新建
|
||||
- Conflicts: 与 [[ctp-topic-53-why-bother-with-cloud]] 存在视角差异:Topic 13 假设已在云上聚焦优化,Topic 53 聚焦是否应迁移的决策论证;已在 Source page Contradictions 节记录
|
||||
|
||||
## [2026-04-26] ingest | Public Cloud Learning Sessions - Budget Control - 20240319
|
||||
- Source file: Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md
|
||||
- Status: ✅ 成功摄入
|
||||
- Summary: SRE Core 团队(Daniela/Evan/Alan)分享 AWS Budget Control 自动化——解决账户蔓延导致的成本失控。核心架构:AWS Budget → SNS → Lambda → Step Functions → SCP Enforcement(服务控制策略封禁新资源创建)。4 类告警:Forecast/Actual 80-98%/Severe/Enforcement。Source Identity 通过 CloudTrail 追踪联邦登录跨角色切换的原始用户身份。初始范围仅限 Lab 账户。
|
||||
- Concepts created: [[AWS-Source-Identity]]
|
||||
- Concepts linked: [[FinOps]], [[SCP-Enforcement]], [[CloudTrail]], [[Step-Functions]], [[Cost-Explorer]], [[AWS-Budget-Alerts]]
|
||||
- Entities linked: [[SRE-Core-Team]], [[Phenops-Team]], [[NetIQ]]
|
||||
- Source page: wiki/sources/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md
|
||||
- Notes: index.md 已更新(Sources 节新增条目,Concepts 节新增 AWS-Source-Identity);overview.md 已补充(FinOps 章节新增段落,置于 reducing-cloud-costs-20250318 后);AWS-Source-Identity 为 Source Identity 追踪机制的完整概念页,满足可复用条件;已建立与 ctp-topic-13(治理自动化政策层)、ctp-topic-63(主动优化)、reducing-cloud-costs-20250318(优化手段)的 Connections 关系;无内容冲突
|
||||
|
||||
## [2026-04-25] ingest | CTP Topic 15 Working with Renovatebot
|
||||
- Source file: Cloud & DevOps/Public-Cloud-Learning-Sessions/06_CI_CD_GitOps/ctp-topic-15-working-with-renovatebot.md
|
||||
- Status: ✅ 成功摄入
|
||||
|
||||
@@ -169,10 +169,16 @@ Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Wast
|
||||
|
||||
**[[ctp-topic-13-cloud-finops-policies]]**(CTP Topic 13):PCG 团队 Uday 和 Vinay 主讲 Cloud FinOps 成本优化政策与最佳实践——核心架构:PCG 三层服务模型(成本管理:账单支付/showback-chargeback/预算管理 → 成本优化:Reserved Instances 集中购买与资源去优化 → 治理与自动化:集中式上线/策略开发/自动报告);5 大核心策略(账单可见性、标签合规、账户负责人预算责任、Reserved Instances 集中管理、区域限制);安全控制(预安装 Godrails、联合身份管理 MFA、告警重定向至安全团队);Cloud Health 工具提供资源清单和月度账单洞察;标准化实例选型(M/T/C/R/X 系列)+ Graviton ARM 实例节省成本;研发环境三合一优化(突发性实例 + Spot 实例 + 实例调度器)。属 [[FinOps(云财务管理)]] 在 [[Micro Focus]] 云转型场景的核心实践,与 [[ctp-topic-63-optimise-resource-cost-using-automation]](自动化调度优化)和 [[ctp-topic-71-pcgs-guide-to-rightsizing-why-how-when]](Rightsizing 最佳实践)共同构成完整的 FinOps 知识链路。
|
||||
|
||||
**[[public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting]]**(Public Cloud Learning Sessions):AWS 存储服务成本优化全景——覆盖 EBS(GP3 推荐,比 GP2 便宜 20%,可独立扩展 IOPS/吞吐量;快照支持归档层比标准层低 75% 成本)、EFS/FSx(生命周期策略和分层机制)、S3(Intelligent Tiering 自动冷热迁移无转换费用;生命周期策略管理非当前版本和多段上传过期;数据传输费用需注意,PrivateLink 可规避)和 ADM 迁移案例(OpenZFS → 自管理 NetApp on EC2 → FSx for NetApp ONTAP 实现 60% 成本削减)。属 [[FinOps(云财务管理)]] 存储优化专题,与 [[ctp-topic-13-cloud-finops-policies]](政策框架)和 [[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]](综合成本优化)共同构成完整 FinOps 知识链路。
|
||||
|
||||
**[[ctp-topic-63-optimise-resource-cost-using-automation]]**(CTP Topic 63):使用自动化手段优化 AWS 云资源成本——涵盖五大核心策略:①批准区域(Approved Region)标准化(Oregon/NVirginia/Frankfurt/London/Sydney/Singapore),提高安全性和成本可预测性;②实例类型选择(M6i/M6g 通用型、T3/T4g 经济型、C 系列计算型、R 系列内存型),同配置 M→R 切换节省 35%,Graviton ARM 比 Intel 便宜 20-25%;③承诺计划(1年约 40% 折扣、3年约 60-64% 折扣);④存储优化(GP2→GP3 节省 20%,及时清理未使用 EBS 卷);⑤自动化调度(基于标签的 EC2/RDS 启动/停止,通过 Lambda + EventBridge + Terraform Scheduler 模块实现,非 7×24 工作负载每天只运行 10 小时可节省 70% 成本)。属 [[FinOps(云财务管理)]] 技术实施层,与 [[ctp-topic-13-cloud-finops-policies]](政策框架)和 [[ctp-topic-71-pcgs-guide-to-rightsizing-why-how-when]](RightSizing)共同构成完整 FinOps 知识链路。
|
||||
|
||||
**[[ctp-topic-71-pcgs-guide-to-rightsizing-why-how-when]]**(CTP Topic 71):PCG 团队讲解 AWS EC2 RightSizing 系统性方法论——核心主题:为何要做 RightSizing、何时做、如何执行的完整指南。问题域聚焦过度配置(over-provisioned)EC2 实例导致的资源浪费。RightSizing 通过分析实例实际资源使用情况,将过度配置的实例调整为合适规格,在不影响性能的前提下实现成本节省。是 [[FinOps(云财务管理)]] 核心技术手段之一。⚠️ 视频尚未完成 Whisper 转录,完整内容待补充。
|
||||
|
||||
**[[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]]**(Public Cloud Learning Sessions,Vinay 主讲):AWS 云成本优化技术深度实践——**工作负载优化**聚焦现代化(EC2 新代际/Graviton 20-25% 节省/AMD 6-10% 节省/GP2→GP3 存储 20% 节省/EKS 最新版避免扩展支持费/Spot 实例 90% 折扣)和 Right Sizing(EC2 Right Sizing 报告/实例调度/闲置资源清理)。**费率优化**讲解 Savings Plans 和 Reserved Instances 的两种承诺类别(资源级 vs 灵活),以及完整实施流程(前置 Right Sizing → 分析 24/7 工作负载 → 财务沟通 → 账户所有者审批 → 利用率监控报告)。关键规则:承诺计划仅支持无预付选项,最低交易金额 $5k/年,仅由 Phenops 团队实施。属 FinOps 技术实施层,与 [[ctp-topic-13-cloud-finops-policies]](政策框架)互补,共同构成"政策 → 技术实施"完整链路。
|
||||
|
||||
**[[public-cloud-learning-sessions-budget-control-20240319]]**(Public Cloud Learning Sessions,SRE Core 团队 Daniela/Evan/Alan 主讲):AWS 预算控制自动化深度实践——解决 AWS 账户蔓延导致的成本失控问题。核心架构:AWS Budget → SNS → Lambda → Step Functions → SCP Enforcement(服务控制策略封禁新资源创建)的完整告警与执行链路;告警类型分 4 种(Forecast/Actual 80-98%/Severe/Enforcement),评分系统计算宽限期避免月末轻微超支账户被误处罚;Source Identity(STS SourceIdentity 属性)通过 CloudTrail 追踪联邦登录跨角色切换的原始用户身份,实现成本责任到人;初始范围仅限 Lab 账户。属 [[FinOps(云财务管理)]] Enforcement 执行层,与 [[ctp-topic-13-cloud-finops-policies]](治理与自动化政策)和 [[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]](主动优化手段)共同构成 FinOps 完整闭环(告警→Enforcement→优化)。
|
||||
|
||||
**[[public-cloud-learning-sessions-best-practices-for-ec2-cost-optimization-in-aws-2]]**(Public Cloud Learning Sessions,Mike Dukes 和 Steele Taylor 主讲):AWS EC2 成本优化最佳实践深度解析——核心主题覆盖计算效率、Nitro 系统、Graviton 使用、EC2 Spot 竞价实例和容器化成本部署。AWS Nitro 系统通过将网络、存储和安全组件外部化来提升效率;Graviton 处理器基于 ARM64 架构,提供高达 40% 更好的性价比,功耗比同等 x86 实例减少高达 60%;EC2 Spot 实例利用 AWS 闲置容量提供高达 90% 的按需价格折扣;购买选项包括 On-Demand、Savings Plans 和 Spot Instances。Spot Invaders 游戏作为容错混沌工程的实践案例,展示了在 EKS 上使用 Spot 实例构建弹性应用的最佳实践。Graviton 适用于大多数工作负载(Web 服务、容器、HPC 批处理、大数据、CI/CD),但排除有状态服务(如数据库);Spot 和 Graviton 可组合使用以最大化成本节省。属 [[FinOps(云财务管理)]] 技术实践层,与 [[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]](成本优化技术)和 [[ctp-topic-13-cloud-finops-policies]](政策框架)共同构成完整的 EC2 成本优化知识链路。
|
||||
|
||||
**[[ctp-topic-20-program-demand-process-flow-and-poc-onboarding]]**(CTP Topic 20):云转型计划的程序需求流程与 POC 入职流程——Sergio 和 Damian 主讲。核心内容:①需求来源——主要由业务案例(如数据中心关闭)、高层管理人员战略优先级及产品路线图驱动;②Gate Process——Gate 0 评估准入、Gate 1 负责 Design Authority 审批、Gate 3 作为启动迁移的最终准入;③POC 目的——不仅验证架构和技术可行性,还包括让团队熟悉基于 Gruntwork 的新一代 Landing Zone;④新环境特点——强调 IaC(Terraform/Terragrunt)自动化部署,严禁手动构建;⑤PCG 团队——平台控制组,负责提供云环境支持、安全策略制定及协助产品组进行 POC;⑥成功标准——POC 成功标准必须在启动前明确定义。属 CTP 治理知识体系入口,与 [[ctp-topic-65]](价值量化)、[[ctp-topic-57]](需求管理)、[[ctp-topic-30]](变更管理)共同构成完整的治理框架链条。
|
||||
|
||||
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "CTP Topic 63 Optimise resource cost using automation"
|
||||
type: source
|
||||
tags: []
|
||||
date: 2026-04-14
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/ctp-topic-63-optimise-resource-cost-using-automation]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:使用自动化手段优化 AWS 云资源成本
|
||||
- 问题域:云转型计划中如何通过标准化的实例选型、存储优化、承诺计划和自动化调度降低云支出
|
||||
- 方法/机制:批准区域(Approved Region)标准化、实例类型选择(ARM/Graviton)、承诺计划(Savings Plans/Reserved Instances)、EBS 存储优化(GP2→GP3)、基于标签的 EC2/RDS 自动化调度(Scheduler)
|
||||
- 结论/价值:综合运用多种成本优化手段,组合使用最高可节省 70% 以上的云资源成本
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- 企业使用 AWS Graviton ARM 处理器替代 Intel 实例,可节省 20-25% 成本
|
||||
- 同配置将实例从 M 系列切换到 R 系列,可节省约 35% on-demand 价格
|
||||
- 通过 1 年承诺计划购买 Reserved Instances,可获得约 40% 折扣;3 年承诺可获得约 60-64% 折扣
|
||||
- 将 EBS 存储从 GP2 迁移到 GP3,可直接节省 20% 成本
|
||||
- 对于非 7×24 运行的工作负载(如开发测试环境),通过自动化调度每天只运行 10 小时,可节省 70% 成本
|
||||
|
||||
## Key Quotes
|
||||
> "Graviton is mature enough for production" — Graviton ARM 实例已成熟可用于生产环境,比同规格 Intel 便宜 20-25%
|
||||
> "Auto shutdown = yes" — Pushka 演示通过 Terraform 模块配置 Scheduler,设置标签实现实例自动停止
|
||||
|
||||
## Key Concepts
|
||||
- [[Approved Region(批准区域)]]:建议使用的云资源部署区域,有助于提高安全性、标准化管理和优化成本
|
||||
- [[Instance Type Selection(实例类型选择)]]:根据工作负载选择合适的实例家族(M/T/C/R/X 系列),以优化性能和成本
|
||||
- [[Commitment Plan(承诺计划)]]:通过预先承诺使用云资源一段时间(Savings Plans / Reserved Instances),获得折扣价格
|
||||
- [[Automation Scheduler(自动化调度)]]:通过设置定时任务,自动启动和停止云资源,以节省非工作时间的资源成本
|
||||
- [[Storage Optimization(存储优化)]]:通过选择合适的存储类型(如 GP3 替代 GP2),及时清理无用存储,合理分配存储空间来降低存储成本
|
||||
- [[Graviton]]:AWS 自研 ARM 处理器,比同规格 Intel 便宜 20-25%,已成熟用于生产环境
|
||||
- [[Terraform Scheduler Module]]:Terraform 模块,通过标签(如 `auto_shutdown = yes`)配置 EC2/RDS 自动启停
|
||||
|
||||
## Key Entities
|
||||
- [[Pushka]]:Principal SRE,演示如何使用 Terraform 模块配置 Scheduler 实现实例自动启停
|
||||
|
||||
## Connections
|
||||
- [[ctp-topic-13-cloud-finops-policies-best-practices-to-optimize-the-co]] ← topic_13 介绍 FinOps 政策框架,本 Topic 补充技术实施细节
|
||||
- [[ctp-topic-71-pcgs-guide-to-rightsizing-why-how-when]] ← topic_71 聚焦 RightSizing,与本 Topic 实例选型优化互补
|
||||
- [[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]] ← 综合成本优化技术,含 Savings Plans 实施流程
|
||||
- [[public-cloud-learning-sessions-best-practices-for-ec2-cost-optimization-in-aws-2]] ← EC2 成本优化最佳实践,含 Graviton 使用
|
||||
- [[public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting]] ← 存储优化专题,含 GP2→GP3 迁移
|
||||
|
||||
## Contradictions
|
||||
- 暂无已知冲突
|
||||
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Public Cloud Learning Sessions - Budget Control - 20240319"
|
||||
type: source
|
||||
tags: [FinOps, AWS, Cost-Optimization, Budget-Control, Alerting]
|
||||
date: 2024-03-19
|
||||
sources: [Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md]
|
||||
last_updated: 2026-04-26
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-budget-control-20240319-160204-meeting-recording.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:AWS 预算控制自动化系统——面向 SRE Core 团队(Daniela、Evan、Alan)的内部学习分享
|
||||
- 问题域:AWS 账户蔓延导致的成本失控,以及现有成本削减措施不可持续的问题
|
||||
- 方法/机制:AWS Budget → SNS → Lambda → Step Functions → SCP Enforcement(服务控制策略封禁新资源创建)的完整告警与执行链路;Source Identity 追踪跨角色切换的原始登录身份
|
||||
- 结论/价值:提供账户级别的详细告警(支出预测/实际支出/成本驱动因素),并将 Enforcement 从手动审批逐步演进为自动封禁
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- SRE Core 团队通过 AWS Budget 服务 + 自定义 Lambda/Step Functions 构建的自动化预算控制,解决了 AWS 账户蔓延导致的成本失控问题
|
||||
- 告警类型分为 4 种:Forecast(预测超支)、Actual(实际超支 80%/90%/95%/98%)、Severe(100% 且评分制触发)、Enforcement(100% 且启用强制执行则触发 SCP 封禁)
|
||||
- Source Identity(AWS Source Identity 属性)通过 CloudTrail 跨角色切换追踪原始登录用户,解决了联邦登录(NetIQ)中"假设角色后无法识别原始身份"的问题
|
||||
- 评分系统(Scoring System)根据账户规模和月末时间节点计算宽限期(Grace Period),避免轻微超支的账户被误处罚
|
||||
- 初始实施范围仅限 Lab 账户,其他账户继续接收标准超预算告警
|
||||
|
||||
## Key Quotes
|
||||
> "This is the first time that we were able to get to this level of granularity." — Daniel,描述通过 Athena + Cost Explorer 实现的资源级成本粒度
|
||||
|
||||
## Key Concepts
|
||||
- [[AWS-Source-Identity]]:通过 `sts:SourceIdentity` 属性在假设角色后保留原始登录身份,使 CloudTrail 可追踪跨角色用户活动
|
||||
- [[FinOps]]:云财务管理,本质是将财务责任与工程实践结合,本 Source 展示 FinOps 执行层(告警→Enforcement)的自动化实现
|
||||
- [[AWS-Budget-Alerts]]:AWS Budget 服务原生的预算告警机制,通过 SNS → Lambda → Step Functions 扩展为详细告警邮件
|
||||
- [[SCP-Enforcement]]:Service Control Policy,在 100% 预算触发时自动封禁账户新资源创建,实现成本治理的"硬执行"
|
||||
- [[CloudTrail]]:AWS 审计日志服务,Source Identity 机制使其能追踪联邦登录跨角色切换的完整用户链
|
||||
- [[Step-Functions]]:AWS Step Functions 编排 Lambda 和数据增强逻辑,实现告警流程自动化
|
||||
- [[Cost-Explorer]]:AWS 成本分析工具,提供用户维度的日度支出数据,用于 top users 报告
|
||||
|
||||
## Key Entities
|
||||
- [[Daniela]]:SRE Core 团队成员,负责图表和详细成本报告讲解(提及 <2 次,wikilink 记录)
|
||||
- [[Evan]]:SRE Core 团队成员(提及 <2 次,wikilink 记录)
|
||||
- [[Alan]]:SRE Core 团队成员,负责 AWS Budget Alerts and Actions 实现细节讲解(提及 <2 次,wikilink 记录)
|
||||
- [[SRE-Core-Team]]:预算控制自动化系统的开发团队,由 Daniela、Evan、Alan 三人组成
|
||||
- [[Phenops-Team]]:FinOps 执行团队,本 Source 中负责预算分配和 Enforcement 审批决策
|
||||
- [[NetIQ]]:联邦身份管理系统(NetIQ Access Manager),用于用户认证并提供 Source Identity 的上游身份
|
||||
|
||||
## Connections
|
||||
- [[ctp-topic-13-cloud-finops-policies]] ← extends ← [[public-cloud-learning-sessions-budget-control-20240319]]:Topic 13 定义 FinOps 政策框架(成本管理→成本优化→治理自动化三层),本 Source 展示"治理与自动化"层(Budget Enforcement)的具体技术实现
|
||||
- [[ctp-topic-63-optimise-resource-cost-using-automation]] ← relates_to ← [[public-cloud-learning-sessions-budget-control-20240319]]:Topic 63 聚焦 RightSizing/承诺计划等主动优化手段,本 Source 聚焦被动告警+强制执行机制,两者互补构成 FinOps 完整闭环
|
||||
- [[public-cloud-learning-sessions-reducing-cloud-costs-20250318]] ← extends ← [[public-cloud-learning-sessions-budget-control-20240319]]:2025 版主讲 Vinay(FinOps Lead),补充了 Savings Plans/RI 承诺计划,本 Source 是 2024 早期版本,两者构成 FinOps 知识演进
|
||||
|
||||
## Contradictions
|
||||
- 与 [[ctp-topic-13-cloud-finops-policies]] 关于 Enforcement 方式:Topic 13 提到"集中式上线/策略开发/自动报告",本 Source 明确提出 SCP 自动封禁新资源作为 Enforcement 手段;两者不矛盾,Topic 13 描述政策层面,本 Source 描述执行层面
|
||||
@@ -0,0 +1,57 @@
|
||||
---
|
||||
title: "Public Cloud Learning Sessions - Storage Cost Optimization - 20240305"
|
||||
type: source
|
||||
tags:
|
||||
- AWS
|
||||
- Storage
|
||||
- FinOps
|
||||
- Cost-Optimization
|
||||
date: 2024-03-05
|
||||
---
|
||||
|
||||
## Source File
|
||||
- [[Cloud & DevOps/Public-Cloud-Learning-Sessions/05_FinOps/public-cloud-learning-sessions-storage-cost-optimization-20240305-160037-meeting.md]]
|
||||
|
||||
## Summary(用中文描述)
|
||||
- 核心主题:AWS 存储服务(EBS/EFS/FSx/S3)的成本优化最佳实践与 ADM 实案例证
|
||||
- 问题域:公有云存储选型决策、存储层级管理、生命周期策略、数据传输成本控制
|
||||
- 方法/机制:按需选择存储类型与层级、智能分层(Intelligent Tiering)、生命周期策略自动化、DLM/AWS Backup 快照管理
|
||||
- 结论/价值:正确的存储选型和分层策略可带来显著成本节省;ADM 通过迁移至 FSx for NetApp ONTAP 实现 60% 成本削减
|
||||
|
||||
## Key Claims(用中文描述)
|
||||
- GP3 相比 GP2 提供 20% 成本优化,且可独立扩展 IOPS 和吞吐量
|
||||
- EBS 快照归档层提供比标准层低 75% 的存储成本,但恢复时间更长、保留期为 90 天
|
||||
- EFS 不频繁访问层最小计费对象大小为 128KB
|
||||
- S3 Intelligent Tiering 可根据访问模式自动在冷热存储层之间迁移数据,且层间迁移无转换费用
|
||||
- ADM 迁移至 AWS FSx for NetApp ONTAP 后,相比最初的自管理 NetApp on EC2 方案实现 60% 成本削减
|
||||
|
||||
## Key Quotes
|
||||
> "With GP3, you can scale IOPS and throughput independently of the volume size." — GP3 核心优势
|
||||
> "With Intelligent Tiering we can automatically move data from warmer to colder storage tiers based on object access patterns." — S3 Intelligent Tiering 核心机制
|
||||
|
||||
## Key Concepts
|
||||
- [[EBS-GP3]]:通用型 SSD(GP3),比 GP2 便宜 20%,可独立扩展 IOPS 和吞吐量
|
||||
- [[EBS-Snapshot-Archive]]:EBS 快照归档层,比标准层低 75% 成本,但恢复需 3-12 小时且保留期 90 天
|
||||
- [[Data-Lifecycle-Manager]]:AWS DLM,自动化 EBS 快照生命周期管理,可设置保留策略并迁移至归档层
|
||||
- [[AWS-Backup]]:AWS 备份服务,可跨服务集中管理备份,支持跨账户跨区域复制
|
||||
- [[EFS-Infrequent-Access]]:EFS 不频繁访问层,最小计费对象大小 128KB,通过生命周期策略自动迁移
|
||||
- [[S3-Intelligent-Tiering]]:S3 智能分层,根据访问频率自动在多个存储层间迁移,无转换费用
|
||||
- [[S3-Lifecycle-Policies]]:S3 生命周期策略,可转换对象层级、过期非当前版本、删除未完成的多段上传
|
||||
- [[FSx-for-NetApp-ONTAP]]:AWS 托管 NetApp 文件系统,支持 SSD 和 HDD 分层,自动在层间迁移冷数据
|
||||
- [[AWS-PrivateLink]]:通过 AWS 网络内访问 S3 避免数据传输费用
|
||||
|
||||
## Key Entities
|
||||
- [[AWS]]:Amazon Web Services,云存储服务提供商(EBS/EFS/FSx/S3)
|
||||
- [[ADM]]:案例客户,通过三阶段迁移(OpenZFS → 自管理 NetApp on EC2 → FSx for NetApp ONTAP)最终实现 60% 成本削减
|
||||
|
||||
## Connections
|
||||
- [[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]] ← extends ← [[ctp-topic-13-cloud-finops-policies]]
|
||||
- [[EBS-GP3]] ← extends ← [[ctp-topic-13-cloud-finops-policies]](FinOps 存储优化话题扩展)
|
||||
- [[public-cloud-learning-sessions-best-practices-for-ec2-cost-optimization-in-aws-2]] ← extends ← [[public-cloud-learning-sessions-reducing-cloud-costs-20250318-170100-meeting-reco]](EC2 + Storage 共同构成完整成本优化知识链路)
|
||||
|
||||
## Contradictions
|
||||
- 与 [[ctp-topic-14-octane-hub-on-aws]] 的潜在冲突(存储选型):
|
||||
- 冲突点:EFS 与 EBS 的适用场景边界
|
||||
- 当前观点:EFS 适合备份,EBS 适合实时数据库(Octane Hub 案例)
|
||||
- 对方观点:EFS Infrequent Access 和 EFS Archive 层适用于不频繁访问的文件共享场景
|
||||
- 说明:两者均正确,但适用场景不同——EFS 更适合跨多实例共享的文件系统,EBS 更适合单实例高性能块存储
|
||||
Reference in New Issue
Block a user