Sync: add kubernetes observability notes
This commit is contained in:
@@ -43,12 +43,20 @@ Cloud Transformation Programme (CTP) materials cover AWS landing zones, EKS, Ter
|
||||
|
||||
**[[public-cloud-learning-sessions-eks-optimization-part-1-of-3-compute-optimization]]**(Public Cloud Learning Sessions,EKS 计算优化专题 Part 1):Karpenter 深度解析与 Cluster Autoscaler 对比——Karpenter 直接与 EC2 Fleet API 通信降低延迟,原生集成 Kubernetes 调度约束(node selectors/affinity/taints/tolerations/topology spread),内置 Spot 中断处理(EventBridge + SQS)和 AMI 滚动升级,Eliminate 节点组管理痛点;Consolidation 策略自动整合低利用率节点,支持中断预算控制和峰值时段豁免。Part 3 将介绍 EKS Auto Mode 进一步简化数据平面管理(内置 Karpenter Controller)。属 [[Karpenter]] 在 AWS EKS 的核心实践,与 [[ctp-topic-70-eks-deployment-using-iac]](EKS IaC 部署)共同构成 EKS 完整知识链路。
|
||||
|
||||
**[[public-cloud-learning-sessions-eks-optimization-part-2-of-3-running-containers-w]]**(Public Cloud Learning Sessions,EKS 计算优化专题 Part 2):Bottlerocket OS(火箭瓶)深度解析——AWS 专为容器工作负载优化的最小化开源 Linux 发行版,核心设计理念:最小化(去除包管理器/Shell/SSH,仅打包必要内核组件)、安全更新(分区镜像 A/B 切换确保原子性)、安全加固(dm-verity 根文件系统加密验证 + SE Linux enforcing 模式 + 根文件系统默认只读)。Variant 机制通过平台+架构+工作负载组件组合在构建时定制功能,支持 Bottlerocket for EKS AMI(自管理节点组)、托管节点组(Managed Node Groups)和 Carpenter 节点池三种集成方式。属 [[Bottlerocket]] 在 [[Amazon EKS]] 场景的核心实践,与 Part 1(Karpenter 计算优化)和 Part 3(EKS Auto Mode)共同构成 EKS 优化三专题完整链路;Part 3 的 EKS Auto Mode 默认使用 Bottlerocket 作为节点操作系统。
|
||||
|
||||
**[[ctp-topic-67-cloud-native-observability-using-opentelemetry]]**(CTP Topic 67):AWS 解决方案架构师 Surav 分享的 EKS/ECS 云原生可观测性深度实践——核心主题:可观测性三信号模型(Traces/Metrics/Logs)、OpenTelemetry Collector 架构(Receivers → Processors → Exporters)、ADOT(AWS Distro for OpenTelemetry)的多种 EKS/ECS 部署模式(Sidecar/独立任务/DaemonSet/HA Replicas)。核心观点:**构建可观测的应用是开发者的责任**——开发者需主动在代码中植入观测能力;Trace 捕获应用调用栈各层的处理耗时,是性能瓶颈定位的核心手段;Correlation ID(如 X-Ray Trace ID)使日志事件可深度链接至 Trace 视图。ADOT 在标准 OTEL Collector 基础上封装 AWS 专用组件,包含 SIGV4 Auth Extension 实现 AWS 服务无缝集成,支持 CloudWatch/X-Ray/Prometheus/Grafana 等多种后端。与 [[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]](Jay Comer 概述版)同属 OpenTelemetry 专题,属 Surav 主讲的深度实践版;与 [[ctp-topic-42-grafana-observability-dashboard]](Grafana 仪表盘)互补,后者为 ADOT 推荐的可视化后端;与 [[ctp-topic-54-esm-saas-log-analytics]](ELK 日志方案)共同构成企业级可观测性知识体系。
|
||||
|
||||
**[[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]]**(Public Cloud Learning Sessions,Jay Comer 主讲):AWS OpenTelemetry 可观测性全景介绍——涵盖可观测性定义(通过外部输出推断内部状态)、三信号模型(Metrics/Logs/Traces)、OpenTelemetry 核心架构(OTLP 协议 + 11 种语言 SDK + Collector 组件)、AWS Distribution for OpenTelemetry(统一代理 + EKS Operator 自动注入)、最新发布动态(安全合规/规模化/集中管理面板/日志支持)。Demo 展示 EKS 环境完整链路:Fluent Bit 采集容器日志 → OpenTelemetry Collector(端口 55681)→ Amazon OpenSearch Service,OpenSearch Dashboard 可按 trace group 展示延迟并通过应用组成图定位性能瓶颈。属 [[OpenTelemetry]] 在 AWS EKS 场景的核心实践,与 [[ctp-topic-67-cloud-native-observability-using-opentelemetry]](CTP Topic 67)同属 OpenTelemetry 专题,与 [[ctp-topic-54-esm-saas-log-analytics]](ELK 日志方案)共同构成企业级可观测性知识体系。
|
||||
|
||||
**[[public-cloud-learning-sessions-eks-optimization-part-3-of-3-introduction-to-eks]]**(Public Cloud Learning Sessions,EKS Auto Mode 专题):AWS EKS Auto Mode 深度解析——将数据平面管理责任从用户扩展至 AWS,覆盖计算节点(Carpenter Controller)、存储(EBS CSI Controller)、网络(AWS LB Controller)和安全(Pod Identity Associations)。Bottlerocket OS 提供最小化安全容器操作系统,自动应用安全补丁;Carpenter Controller 监听控制面版本变更,自动触发节点 AMI 滚动升级;Pod Identity Associations 替代 K8s RBAC 实现 Pod 级 IAM 权限控制,无需修改 ServiceAccount;Prefix Delegation 默认启用优化 Pod 网络 IP 分配。默认两个节点池(General Purpose 锁定 AMD64,System 带 taint),支持自定义节点池指定 Graviton。Auto Mode 兼容所有 Kubernetes-compliant 工作负载,实例附加 12% 管理溢价。属 EKS 运维简化的核心实践,与 [[ctp-topic-59-achieving-reliability-with-amazon-eks]](EKS 可靠性)、[[ctp-topic-64-scaling-out-with-amazon-eks]](EKS 扩缩容)共同构成 EKS 完整知识链路。
|
||||
|
||||
**[[ctp-topic-39-implementing-eks-in-the-aws-lab-landing-zone]]**(CTP Topic 39):EKS 在受限 Lab Landing Zone 网络环境下的技术实施方案——Spencer 和 Guy 分享。核心问题:Micro Focus 网络的 AWS Lab 环境 IP 地址池不足,无法满足 Octane(IP 密集型 SaaS 应用)的 EKS Pod 需求。解决方案:创建独立私有子网(非主 VPC 子网),由 EKS 模块自定义网络标志控制 Pod IP 分配;Pod 规范设置 `hostNetwork: true` 使其同时访问内部 Micro Focus 网络和外部资源;Terraform/Terragrunt 模块封装完整 EKS 部署逻辑,支持跨账户角色映射。Atlantis 当前不支持 EKS 部署,需通过 Jenkins + Terragrunt 模块替代。属 [[Amazon EKS]] 在受限网络场景下的技术实践,与 [[ctp-topic-70-eks-deployment-using-iac]](IaC 部署)共同构成 EKS 完整知识链路。
|
||||
|
||||
**[[ctp-topic-70-eks-deployment-using-iac]]**(CTP Topic 70):EKS 集群通过 IaC 部署的完整方法论——涵盖容器与 VM 的对比(启动速度/内存效率/可移植性)、EKS 核心特性(完全托管控制平面/零停机滚动更新/IAM RBAC 最小权限)。SRE EKS 模块支持两种部署路径:Terraform(`tera-grant.scl` 定义集群参数+Secret Manager 集成)和 Service Catalog(模块化产品组合+版本选择)。自定义网络通过 EMI(ENI Multi-IP)为 Pod 分配额外 IP 地址解决 VPC CIDR 限制;Cluster Autoscaler 实现 Worker Node 自动扩缩容。监控栈:CloudWatch Agent + FluentBit(DaemonSet)+ Container Insights + AWS OpenTelemetry + Grafana。属 [[Amazon EKS]] 部署方法的完整入口,与 [[ctp-topic-59-achieving-reliability-with-amazon-eks]](可靠性)、[[ctp-topic-64-scaling-out-with-amazon-eks]](扩缩容)、[[public-cloud-learning-sessions-eks-optimization-part-3-of-3-introduction-to-eks]](Auto Mode)共同构成 EKS 完整知识链路。
|
||||
|
||||
**[[ctp-topic-59-achieving-reliability-with-amazon-eks]]**(CTP Topic 59):Amazon EKS 可靠性最佳实践——AWS 高级解决方案架构师 Surav Paul 主讲。涵盖 EKS 容器服务选型(ECS vs EKS)、可靠性定义(可预测行为、故障检测、优雅降级、自愈、按需扩缩)、shared responsibility model(AWS 负责控制平面,客户负责工作节点/OS/应用配置,Fargate 模式下客户无需管理节点)、应用层可靠性(避免单例 Pod、AZ 分散、拓扑分布约束、HPA/VPA 扩缩容、Rolling/Blue-Green/Canary 部署、存活/就绪/启动探针、PodDisruptionBudget)、控制平面可靠性(监控 API server 指标、安全认证加固、准入 Webhook 管理、集群升级 14 个月支持周期)和数据平面可靠性(节点问题检测、资源预留、QoS、资源配额、Pod 优先级抢占)。属 [[Amazon EKS]] 生产级可靠性保障的核心知识来源,与 [[ctp-topic-70-eks-deployment-using-iac]](IaC 部署)和 [[ctp-topic-64-scaling-out-with-amazon-eks]](扩缩容)共同构成 EKS 完整知识链路。
|
||||
|
||||
**[[ctp-topic-4-using-agile-to-run-the-cloud-transformation-program]]**(CTP Topic 4):云转型计划中敏捷实践的落地经验——Heather Norris 主讲。核心内容:①框架演进——从 Scrum(两周 Sprint,含 Product Backlog/Sprint Planning/Retrospectives/Reviews/Daily Scrum)因"Sprint 期间不允许变更"的问题而转向 Kanban 持续流动模式;②混合方案——以 Kanban 为主(随时可调整优先级、持续交付),同时保留 Scrum 的固定仪式(每日站会和回顾会议);③Microsoft Planner 看板——五列布局(Backlog/To Do/In Progress/Program Key Decisions/Icebox),每张卡必须指定单一负责人、链接依赖、设置优先级和截止日期;④核心价值观——"Agile is all about getting that rapid feedback to make the product and make the development culture better"。属 [[Agile Ceremonies]] 和 [[Scrum]] vs [[Kanban]] 在企业级云迁移场景下的实战案例,与 [[ctp-topic-57-product-backlog-managing-demand]](需求管理)和 [[ctp-topic-30-managing-change]](变更管理)共同构成 CTP 项目管理知识体系。
|
||||
|
||||
**[[public-cloud-learning-sessions-applicable-business-analysis-techniques-20240109]]**(Public Cloud Learning Sessions 20240109):业务分析(Business Analysis)基础技能与三大核心技法——T型技能模型、BOSCARD框架、干系人轮盘(Stakeholder Wheel)、结合元数据的用户故事需求收集。业务分析将业务需求与技术变更解决方案对齐,涵盖IT系统变更、流程变更、培训和角色转换。BOSCARD(Background/Objectives/Scope/Constraints/Assumptions/Risks/Roles/Deliverables)通过澄清背景、目标、范围等8个维度定义复杂新工作,"早期锁定范围无价"。干系人轮盘从客户出发顺时针识别所有项目干系人。INVEST原则(Independent/Negotiable/Valuable/Estimable/Small/Testable)用于检查需求质量。属 [[Product-Backlog]] 和 [[Demand-Management]] 的前置技法层,与 [[ctp-topic-4]](敏捷实践)和 [[ctp-topic-57]](需求管理)共同构成云转型计划的完整方法论(规划→需求→执行)。
|
||||
@@ -61,6 +69,10 @@ Cloud Transformation Programme (CTP) materials cover AWS landing zones, EKS, Ter
|
||||
|
||||
**[[ctp-topic-8-obm-cloud-monitoring]]**(CTP Topic 8):使用 Micro Focus Operations Bridge Manager (OBM) 实现 AWS 公有云监控的完整解决方案——OBM AWS Account 部署 OBM 应用、Postgres RDS 和 Operation Agent 三层组件;Agent 通过 AWS Management Pack 利用 IAM Role 信任关系跨账户采集 CloudWatch 指标,无需在被监控账户安装服务器或共享 Access Key;Global OBM 作为 Manager of Managers 汇聚多区域 Regional OBM 数据,事件通过 SMACKS 触发工单;新增实例自动发现、策略自动下发,解决云环境动态性监控难题;支持任意公有云(AWS/Azure/GCP)的 CloudWatch 兼容服务。与 [[ctp-topic-29-cloud-monitoring-saas-lz-accounts]](账户架构)互补构成完整监控体系,属 [[AWS-Landing-Zone]] 监控层的核心实践。
|
||||
|
||||
**[[ctp-topic-54-esm-saas-log-analytics]]**(CTP Topic 54):ITOM ESM SAS 架构师 Jackie 主讲的企业级日志分析解决方案(ESM SaaS)——涵盖 ELK/OpenSearch 技术栈架构(BEATS 采集 → Logstash 处理 → Elasticsearch/OpenSearch 存储 → Kibana 可视化)、双 VPC 隔离架构(应用 VPC + 日志 VPC)、Redis 缓冲层防止 Logstash 过载。安全加固涵盖静态加密(NVMe 硬件级)、传输加密(TLS 1.2)、VPC 私有流量和 RBAC 访问控制;GDPR 合规要求推动日志农场按区域分割部署(美国俄勒冈、欧洲)。方案对比:AWS OpenSearch(~$1,500/月,SLA 99.9%,推荐)、Logz.io(~$4,000/月,SLA 99.8%)、自托管 ELK(成本低维护高)、Microfocus OBA(商业成熟,列级访问控制)。起步建议先用 Logz.io 试用,再迁移 AWS OpenSearch。与 [[ctp-topic-8-obm-cloud-monitoring]] 同属企业监控体系,Topic 8 聚焦指标监控,Topic 54 聚焦日志分析,共同构成完整可观测性视图。
|
||||
|
||||
**[[ctp-topic-42-grafana-observability-dashboard]]**(CTP Topic 42):企业级 Grafana 可观测性平台在 AWS 多账户环境下的架构设计与 Terraform IaC 自动化实践——涵盖 Grafana 核心定位(不存储数据,仅从数据源可视化)、基础设施架构(监控账户部署 Grafana,通过 IAM 角色跨账户访问产品团队 AWS 账户)、用户和团队访问控制(Editor/Viewer/Admin 角色)、示例仪表盘(CPU/I/O/Network/EBS/Estimated Charges)、告警系统(Microsoft Teams 通知)、Terraform 模块化供给(数据源模块 + 组织模块 + LZSAP 自动化接入)、Prometheus 网络监控(Checkpoint/防火墙 SNMP 指标)。与 [[ctp-topic-54-esm-saas-log-analytics]](日志分析)同属可观测性专题,共同构成监控知识体系;长期目标是构建应用级仪表盘替代 [[Micro Focus Operations Bridge Manager]]。
|
||||
|
||||
**[[ctp-topic-35-aws-landing-zone-design-refresher-saas-labs]]**(CTP Topic 35):AWS Landing Zone 设计复习——重点明确 SaaS(生产)与 Labs(开发)的职责划分。SaaS Landing Zone 为每个产品区域提供客户专属环境,产品账户连接至共享服务账户(安全、日志、网络);核心账户组包含 AD、DNS 和 Network 账户;Gruntwork 账户跨所有账户管理 AMI、日志和安全。近期变更:网络分段阻断对 SaaS 工作负载的直接连通性;CCOEs CloudTrail 取代 Gruntworks CloudTrail 实现统一审计;入站流量拟通过 Network 账户 Checkpoint 重新路由;原生 AWS Backup 有望强制化;新账户可能取消 Management VPC。核心结论:**SaaS = 生产,Labs = 开发**;PoC Landing Zone 将并入 Labs 以最大化资源共享;Cloud Technology Design Forum 推动 Micro Focus 云交付标准化。
|
||||
|
||||
**[[ctp-topic-6-aws-workspaces-demo]]**(CTP Topic 6):AWS Workspaces 虚拟桌面解决方案实操演示——通过 AWS Workspaces 为云转型团队提供托管 Windows 虚拟桌面(Windows Server 2016),预装 PFSSO、Terraform、TerraGrunt、Git 和 VS Code。用户通过邮件联系 Naga 申请账号,接收注册码和用户名后登录,可立即访问 AWS Console(Federation)和 GitHub Enterprise 并生成 SSH 密钥。演示全程约 21 分钟完成仓库克隆、PFSSO 认证和 TerraGrunt Plan 执行,达成"申请后 45 分钟内运行 Terraform"的目标。未来计划与 Active Directory 集成实现自动化账号管理。属 [[AWS-Landing-Zone]] 用户端工具层的核心实践,与 [[ctp-topic-1-gruntwork-landing-zone-architecture]](基础架构)和 [[ctp-topic-9-ci-cd-with-gruntwork]](CI/CD 流程)共同构成完整的"架构→交付→使用"链路。
|
||||
@@ -83,7 +95,7 @@ Cloud Transformation Programme (CTP) materials cover AWS landing zones, EKS, Ter
|
||||
|
||||
**[[ctp-topic-61-workload-vpc-provision-with-ipam-automation]]**(CTP Topic 61):Workload VPC 完整自动化供给方案——Pushka(Principal SRE)主讲,在 Topic 45 的 IPAM 自动分配机制基础上,展示了端到端 VPC 供给流程。核心增强:多 VPC 批量供给支持、邮件通知机制、CIDR /22 阈值自动审批(更大 CIDR 自动,更小需理由审批)、非路由 IP 地址(如 10.2.0.0/16)支持、使用 AZ ID 避免跨账号不一致。Infoblox Grid 作为全局唯一 IP 地址数据源防止重叠,架构包含休斯顿数据中心主库及冗余 DNS/NTP/DHCP 服务。核心理念:**"只需把信息放到正确位置,一切自动完成。"** 属 [[IPAM(IP Address Management)]] 的应用层扩展,与 [[ctp-topic-45-automatic-ip-address-allocation-with-ipam]] 共同构成 IPAM 的"机制 → 应用"完整链路。
|
||||
|
||||
Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Waste]], [[Benefits-Quantification]], [[Cost-of-Delay]], [[WSJF]], [[SOM]], [[Feature-Level-Value-Breakdown]], [[Program-Demand-Process]], [[Proof-of-Concept]], [[Gate-Process]], [[Solution-Design]], [[Landing Zone Architecture]], [[Product-Backlog]], [[Demand-Management]], [[SMACs]], [[Prerequisite-Phase]], [[Hyper-Care]], [[Octane]], [[Hybrid DNS Resolution]], [[VMware-Cloud-on-AWS]], [[VMware]], [[HCX]], [[SDDC]], [[Stretched-Cluster]], [[Hybrid-Cloud]], [[Multi-Cloud Strategy]], [[Multi-Cloud-ROI]], [[DevOps Culture]], [[CI/CD Pipeline]], [[DevSecOps]], [[Shift-Left-Security]], [[Shift-Right-Security]], [[SAST]], [[DAST]], [[IAST]], [[SCA]], [[Break-the-Build]], [[Agile Practices]], [[DevOps Maturity]], [[DORA Metrics]], [[Infrastructure as Code]], [[Cloud-Native]], [[Cloud Maturity Levels]], [[Cloud Adoption Strategy]], [[Cloud Service Delivery]], [[Cloud DevOps Maturity Model]], [[Cloud Operating Model]], [[Cloud Governance]], [[Cloud Cost Optimization]], [[Serverless Computing]], [[Edge Computing]], [[Green Computing]], [[Data-Warehouse]], [[MPP]], [[Columnar-Storage]], [[Sort-Key]], [[Distribution-Key]], [[Vendor-Lock-In]], [[Data-Sovereignty]], [[NFR(非功能需求)]], [[Error Budget(错误预算)]], [[Chaos Engineering]], [[高可用(High Availability)]], [[灾难恢复架构模式]], [[Vault Lock]], [[跨账户备份]], [[增量备份]], [[SPF]], [[DKIM]], [[TLS]], [[API-Key-Rotation]], [[Cyber-Suite]], [[CBC-Mode]], [[SendGrid]], [[Twilio]] vs [[全量备份]](CTP Topic 72:增量仅捕获变更,节省存储成本)、**[[AWS Backup Audit Manager]]**(BAM,CTP Topic 72:合规审计报告)、**[[AWS-Tagging-Standards]]**(CTP Topic 28:AWS 标签规范,涵盖命名约定、强制标签键、成本标签策略;与 Checkpoint 防火墙安全策略直接关联,标签缺失导致流量拦截)、**[[Tag-Validation-Tool]]**(CTP Topic 28:SRE 团队开发的 Python/Boto3 工具,通过 YAML 配置扫描 AWS 资源标签合规性)、**[[Service-Control-Policies-SCPs]]**(AWS Organizations 策略类型,通过「显式拒绝」逻辑强制执行标签规范)、**[[OU-Layered-Security]]**(通过组织单元分层结构检查标签确保正确归属)、**[[Tag-Based-Security]]**(将资源标签作为安全凭证替代传统 IP 规则)、**[[Checkpoint-Firewall]]**(防火墙供应商,依赖 AWS 标签值配置网络访问策略)、**[[Variables-YAML]]**(Tag Validation Tool 核心配置文件,定义每个账户的合法标签键及允许值)、**[[SRE-Tools-Repository]]**(内部代码仓库,存放 Tag Validation Tool 等 SRE 自动化脚本):[[WAF]], [[APM]], [[Cloud Security]], [[Cloud Migration]], [[High Availability]], [[Pay-as-you-go]], [[Failover]], [[Multi-factor-Authentication]], [[Data-Governance]], [[Continuous Integration]], [[Continuous Deployment]], [[Lead Time]], [[Time-to-Market]], [[MTTR]], [[MTTD]], [[MTTA]], [[Change Failure Rate]], [[Error Budget]], [[Rollback Rate]], [[Availability]], [[Scalability]], **[[Agentic AI]]**, [[Root Cause Analysis (RCA)]], [[Predictive Maintenance]], [[Deployment Automation]], [[Rightsizing]], [[Automated Security Audit]], [[AI ChatOps]], [[What-If Simulation]], **[[RTO]]**, **[[RPO]]**, **[[Feature Flag]]**, **[[Kill Switch]]**, **[[Progressive Rollout]]**, **[[Micro-Recovery]]**, **[[Deployment-vs-Release]]**, **[[Business Impact Analysis]]**, **[[Public Cloud]]**, **[[Private Cloud]]**, **[[Hybrid Cloud]]**, **[[Shared Responsibility Model]]**, [[Multi-Tenancy]], [[Intentional Cloud Strategy]], **[[Centralized Logging]]**, **[[Cross-Account Monitoring]]**, **[[Multi-Account Deployment]]**, **[[StackSets Deployment Visibility]]**, [[CMDB]], [[Problem-Management]], [[Release-Management]], [[Configuration-Management]], [[Asset-Management]], [[Security-and-Compliance]], [[DRaaS]], [[Canary-Release]], [[Blue-Green-Deployment]], [[Threat Modeling]], [[OWASP-Top-Ten]], [[Bug-Bounty]], [[Vulnerability-Scanning]], [[Penetration-Testing]], [[Compliance-Automation]]
|
||||
Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Waste]], [[Benefits-Quantification]], [[Cost-of-Delay]], [[WSJF]], [[SOM]], [[Feature-Level-Value-Breakdown]], [[Program-Demand-Process]], [[Proof-of-Concept]], [[Gate-Process]], [[Solution-Design]], [[Landing Zone Architecture]], [[Product-Backlog]], [[Demand-Management]], [[SMACs]], [[Prerequisite-Phase]], [[Hyper-Care]], [[Octane]], [[Hybrid DNS Resolution]], [[VMware-Cloud-on-AWS]], [[VMware]], [[HCX]], [[SDDC]], [[Stretched-Cluster]], [[Hybrid-Cloud]], [[Multi-Cloud Strategy]], [[Multi-Cloud-ROI]], [[DevOps Culture]], [[CI/CD Pipeline]], [[DevSecOps]], [[Shift-Left-Security]], [[Shift-Right-Security]], [[SAST]], [[DAST]], [[IAST]], [[SCA]], [[Break-the-Build]], [[Agile Practices]], [[DevOps Maturity]], [[DORA Metrics]], [[Infrastructure as Code]], [[Cloud-Native]], [[Cloud Maturity Levels]], [[Cloud Adoption Strategy]], [[Cloud Service Delivery]], [[Cloud DevOps Maturity Model]], [[Cloud Operating Model]], [[Cloud Governance]], [[Cloud Cost Optimization]], [[Serverless Computing]], [[Edge Computing]], [[Green Computing]], [[Data-Warehouse]], [[MPP]], [[Columnar-Storage]], [[Sort-Key]], [[Distribution-Key]], [[Vendor-Lock-In]], [[Data-Sovereignty]], [[NFR(非功能需求)]], [[Error Budget(错误预算)]], [[Chaos Engineering]], [[高可用(High Availability)]], [[灾难恢复架构模式]], [[Vault Lock]], [[ELK Stack]], [[OpenSearch]], [[Logstash]], [[Kibana]], [[BEATS]], [[Filebeat]], [[OpenTelemetry]], [[Fluent Bit]], [[Observability(可观测性)]], [[OTLP(OpenTelemetry Protocol)]], [[Three Signals]], [[Centralized-Logging]], [[Redis缓存]], [[RBAC]], [[TLS]], [[API-Key-Rotation]], [[跨账户备份]], [[增量备份]], [[SPF]], [[DKIM]], [[TLS]], [[API-Key-Rotation]], [[Cyber-Suite]], [[CBC-Mode]], [[SendGrid]], [[Twilio]] vs [[全量备份]](CTP Topic 72:增量仅捕获变更,节省存储成本)、**[[AWS Backup Audit Manager]]**(BAM,CTP Topic 72:合规审计报告)、**[[AWS-Tagging-Standards]]**(CTP Topic 28:AWS 标签规范,涵盖命名约定、强制标签键、成本标签策略;与 Checkpoint 防火墙安全策略直接关联,标签缺失导致流量拦截)、**[[Tag-Validation-Tool]]**(CTP Topic 28:SRE 团队开发的 Python/Boto3 工具,通过 YAML 配置扫描 AWS 资源标签合规性)、**[[Service-Control-Policies-SCPs]]**(AWS Organizations 策略类型,通过「显式拒绝」逻辑强制执行标签规范)、**[[OU-Layered-Security]]**(通过组织单元分层结构检查标签确保正确归属)、**[[Tag-Based-Security]]**(将资源标签作为安全凭证替代传统 IP 规则)、**[[Checkpoint-Firewall]]**(防火墙供应商,依赖 AWS 标签值配置网络访问策略)、**[[Variables-YAML]]**(Tag Validation Tool 核心配置文件,定义每个账户的合法标签键及允许值)、**[[SRE-Tools-Repository]]**(内部代码仓库,存放 Tag Validation Tool 等 SRE 自动化脚本):[[WAF]], [[APM]], [[Cloud Security]], [[Cloud Migration]], [[High Availability]], [[Pay-as-you-go]], [[Failover]], [[Multi-factor-Authentication]], [[Data-Governance]], [[Continuous Integration]], [[Continuous Deployment]], [[Lead Time]], [[Time-to-Market]], [[MTTR]], [[MTTD]], [[MTTA]], [[Change Failure Rate]], [[Error Budget]], [[Rollback Rate]], [[Availability]], [[Scalability]], **[[Agentic AI]]**, [[Root Cause Analysis (RCA)]], [[Predictive Maintenance]], [[Deployment Automation]], [[Rightsizing]], [[Automated Security Audit]], [[AI ChatOps]], [[What-If Simulation]], **[[RTO]]**, **[[RPO]]**, **[[Feature Flag]]**, **[[Kill Switch]]**, **[[Progressive Rollout]]**, **[[Micro-Recovery]]**, **[[Deployment-vs-Release]]**, **[[Business Impact Analysis]]**, **[[Public Cloud]]**, **[[Private Cloud]]**, **[[Hybrid Cloud]]**, **[[Shared Responsibility Model]]**, [[Multi-Tenancy]], [[Intentional Cloud Strategy]], **[[Centralized Logging]]**, **[[Cross-Account Monitoring]]**, **[[Multi-Account Deployment]]**, **[[StackSets Deployment Visibility]]**, [[CMDB]], [[Problem-Management]], [[Release-Management]], [[Configuration-Management]], [[Asset-Management]], [[Security-and-Compliance]], [[DRaaS]], [[Canary-Release]], [[Blue-Green-Deployment]], [[Threat Modeling]], [[OWASP-Top-Ten]], [[Bug-Bounty]], [[Vulnerability-Scanning]], [[Penetration-Testing]], [[Compliance-Automation]]
|
||||
|
||||
**[[ctp-topic-40-saas-database-architecture]]**(CTP Topic 40):SAS 数据库团队在 AWS 云上的架构与运维实践——团队分布于美国/加拿大/印度/以色列,管理 500+ 数据库和 1000+ DB 服务器;支持 Oracle、Vertica、Postgres、DynamoDB、SQL Server、MongoDB、MySQL 等多引擎;高可用架构采用三可用区模式(主库/备用库/见证节点);使用 Oracle Data Guard、Postgres Active-Passive/Active-Active、RDS HA 实现多活;通过 Terraform、AWS CLI、Shell/PowerShell 实现 IaC 自动化;Oracle GoldenGate 支持零停机迁移。属 [[AWS-Landing-Zone]] 数据库层的核心实践,与 [[ctp-topic-51-purpose-built-databases]](数据库品类全景)和 [[ctp-topic-66-rds-vs-aurora]](关系型选型)共同构成完整的 AWS 数据库知识体系。
|
||||
|
||||
@@ -119,6 +131,8 @@ Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Wast
|
||||
|
||||
**[[public-cloud-learning-sessions-opentext-thor-platform-flows-20241210-160056-meet]]**(Learning Sessions,Arnold Dacan 主讲):Project Thor 平台架构与数据流设计详解——五大支柱框架(敏捷周期治理、产品发布治理、开发者门户 Backstage、安全与治理、Build Hub);核心数据流:源代码流(GitLab)→ 制造流程(Build Farms)→ Artifactory → 客户环境;地理分布:工具链主站点 Brook Park + 灾备站点 Sacramento;标准化目标:统一 GitLab/Artifactory/UCMDB 工具链,夯实供应链安全基础。属 [[DevOps Culture]] 企业级工具链标准化与供应链安全的深度补充,与 GitHub→GitLab 迁移文档共同构成 Project Thor 知识体系。
|
||||
|
||||
**[[public-cloud-learning-sessions-opentext-gis-security-policies-20241015-160257-me]]**(Learning Sessions,Mike & Ed 主讲):OpenText 全球信息安全团队(GIS)安全策略全景——GIS 是分层组织架构,包含安全运营(事件响应与保障)、合规(认证与政策执行)、治理风险验证(GRV,季度审查 Admin 角色)、隐私(新增集成中)四个支柱。OpenText 采用分层方法定义安全策略——与各团队协作定义"做什么",与执行团队协作确定"怎么做";持有 FedRAMP 等多项行业及政府认证,可进入多个垂直市场销售;每月处理 2250 亿条日志,分诊约 350 个案例。姿态框架基于 ISO 27001(2022 年更新,新增 11 个控制方面);Global Information Security Policy(GISP)是最高纲领性政策,季度审查。安全运营涵盖 Cyber Response Center、威胁情报(BrightCloud)、云安全、安全工具与工程等核心服务;合规组织涵盖合规项目、路线图、产品风险评估、持续合规与审计、自动化等内容。属企业级安全治理体系的核心入门,与 [[ctp-topic-10-aws-landing-zone-lz-data-collection-tagging-related-security]](AWS 层面标签化安全)互补——GISP 定义全局政策纲领,Landing Zone 层面通过标签和 SCP 实现技术落地。
|
||||
|
||||
**[[ctp-topic-28-aws-tag-validation-tool]]**(CTP Topic 28):AWS 标签验证工具——Lewis Brown 主讲,SRE 团队开发的 Python/Boto3 工具。Checkpoint 防火墙通过读取 EC2、安全组、负载均衡器的标签值动态配置网络访问策略,标签缺失或无效将导致流量被拦截;SCPs 可阻止不合规资源创建但无法修复存量资源。该工具通过 `variables.yaml` 定义每个账户的合法标签值,自动扫描 EC2/安全组/负载均衡器/Lambda,生成 CSV 审计报告。使用 Poetry 管理 Python 环境,存放于 SRE Tools Repository。标签策略还计划用于未来成本核算,区分同一账户下不同产品的资源消耗。属 [[AWS-Landing-Zone]] 标签治理闭环的核心补充——制定规范(Topic 10)→ 强制执行(SCPs)→ 审计发现(Topic 28)。
|
||||
|
||||
**[[ctp-topic-30-managing-change]]**(CTP Topic 30):云转型中的变更管理与 SRE 团队协作——Brendan Starnig(SRE Function Lead)主讲。核心内容:①SRE 职责——用软件工程思维解决运维问题,追求可靠性、可测试性、可重复性,核心是打破运维与产品的壁垒;②变更分类——Standard Change(预批准,完全自动化 IaC+CI/CD,无需 CAB)→ Normal Change(需 CAB 审批,目标是通过自动化逐步归入 Standard Change)→ Emergency Change(立即执行缓解事故,事后 CAPA/Post-mortem 修复根因);③SRE 三阶段协作——构建(Build)/早期上线支持(Early Live Support)/BAU;④Self-Healing 演进方向——各产品组分享实践,SRE 协助在监控产品中落地。属 [[AWS-Landing-Zone]] 运维治理层的核心补充,与 [[ctp-topic-28-aws-tag-validation-tool]](IaC 变更的 Tagging 标准属于 Standard Change 范畴)共同构成变更管理知识体系。
|
||||
|
||||
Reference in New Issue
Block a user