Sync: add kubernetes observability notes

This commit is contained in:
2026-04-24 11:35:04 +08:00
parent ca96e409be
commit 989ec86c77
23 changed files with 1350 additions and 9 deletions

View File

@@ -43,12 +43,20 @@ Cloud Transformation Programme (CTP) materials cover AWS landing zones, EKS, Ter
**[[public-cloud-learning-sessions-eks-optimization-part-1-of-3-compute-optimization]]**Public Cloud Learning SessionsEKS 计算优化专题 Part 1Karpenter 深度解析与 Cluster Autoscaler 对比——Karpenter 直接与 EC2 Fleet API 通信降低延迟,原生集成 Kubernetes 调度约束node selectors/affinity/taints/tolerations/topology spread内置 Spot 中断处理EventBridge + SQS和 AMI 滚动升级Eliminate 节点组管理痛点Consolidation 策略自动整合低利用率节点支持中断预算控制和峰值时段豁免。Part 3 将介绍 EKS Auto Mode 进一步简化数据平面管理(内置 Karpenter Controller。属 [[Karpenter]] 在 AWS EKS 的核心实践,与 [[ctp-topic-70-eks-deployment-using-iac]]EKS IaC 部署)共同构成 EKS 完整知识链路。
**[[public-cloud-learning-sessions-eks-optimization-part-2-of-3-running-containers-w]]**Public Cloud Learning SessionsEKS 计算优化专题 Part 2Bottlerocket OS火箭瓶深度解析——AWS 专为容器工作负载优化的最小化开源 Linux 发行版,核心设计理念:最小化(去除包管理器/Shell/SSH仅打包必要内核组件、安全更新分区镜像 A/B 切换确保原子性、安全加固dm-verity 根文件系统加密验证 + SE Linux enforcing 模式 + 根文件系统默认只读。Variant 机制通过平台+架构+工作负载组件组合在构建时定制功能,支持 Bottlerocket for EKS AMI自管理节点组、托管节点组Managed Node Groups和 Carpenter 节点池三种集成方式。属 [[Bottlerocket]] 在 [[Amazon EKS]] 场景的核心实践,与 Part 1Karpenter 计算优化)和 Part 3EKS Auto Mode共同构成 EKS 优化三专题完整链路Part 3 的 EKS Auto Mode 默认使用 Bottlerocket 作为节点操作系统。
**[[ctp-topic-67-cloud-native-observability-using-opentelemetry]]**CTP Topic 67AWS 解决方案架构师 Surav 分享的 EKS/ECS 云原生可观测性深度实践——核心主题可观测性三信号模型Traces/Metrics/Logs、OpenTelemetry Collector 架构Receivers → Processors → Exporters、ADOTAWS Distro for OpenTelemetry的多种 EKS/ECS 部署模式Sidecar/独立任务/DaemonSet/HA Replicas。核心观点**构建可观测的应用是开发者的责任**——开发者需主动在代码中植入观测能力Trace 捕获应用调用栈各层的处理耗时是性能瓶颈定位的核心手段Correlation ID如 X-Ray Trace ID使日志事件可深度链接至 Trace 视图。ADOT 在标准 OTEL Collector 基础上封装 AWS 专用组件,包含 SIGV4 Auth Extension 实现 AWS 服务无缝集成,支持 CloudWatch/X-Ray/Prometheus/Grafana 等多种后端。与 [[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]]Jay Comer 概述版)同属 OpenTelemetry 专题,属 Surav 主讲的深度实践版;与 [[ctp-topic-42-grafana-observability-dashboard]]Grafana 仪表盘)互补,后者为 ADOT 推荐的可视化后端;与 [[ctp-topic-54-esm-saas-log-analytics]]ELK 日志方案)共同构成企业级可观测性知识体系。
**[[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]]**Public Cloud Learning SessionsJay Comer 主讲AWS OpenTelemetry 可观测性全景介绍——涵盖可观测性定义通过外部输出推断内部状态、三信号模型Metrics/Logs/Traces、OpenTelemetry 核心架构OTLP 协议 + 11 种语言 SDK + Collector 组件、AWS Distribution for OpenTelemetry统一代理 + EKS Operator 自动注入)、最新发布动态(安全合规/规模化/集中管理面板/日志支持。Demo 展示 EKS 环境完整链路Fluent Bit 采集容器日志 → OpenTelemetry Collector端口 55681→ Amazon OpenSearch ServiceOpenSearch Dashboard 可按 trace group 展示延迟并通过应用组成图定位性能瓶颈。属 [[OpenTelemetry]] 在 AWS EKS 场景的核心实践,与 [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]CTP Topic 67同属 OpenTelemetry 专题,与 [[ctp-topic-54-esm-saas-log-analytics]]ELK 日志方案)共同构成企业级可观测性知识体系。
**[[public-cloud-learning-sessions-eks-optimization-part-3-of-3-introduction-to-eks]]**Public Cloud Learning SessionsEKS Auto Mode 专题AWS EKS Auto Mode 深度解析——将数据平面管理责任从用户扩展至 AWS覆盖计算节点Carpenter Controller、存储EBS CSI Controller、网络AWS LB Controller和安全Pod Identity Associations。Bottlerocket OS 提供最小化安全容器操作系统自动应用安全补丁Carpenter Controller 监听控制面版本变更,自动触发节点 AMI 滚动升级Pod Identity Associations 替代 K8s RBAC 实现 Pod 级 IAM 权限控制,无需修改 ServiceAccountPrefix Delegation 默认启用优化 Pod 网络 IP 分配。默认两个节点池General Purpose 锁定 AMD64System 带 taint支持自定义节点池指定 Graviton。Auto Mode 兼容所有 Kubernetes-compliant 工作负载,实例附加 12% 管理溢价。属 EKS 运维简化的核心实践,与 [[ctp-topic-59-achieving-reliability-with-amazon-eks]]EKS 可靠性)、[[ctp-topic-64-scaling-out-with-amazon-eks]]EKS 扩缩容)共同构成 EKS 完整知识链路。
**[[ctp-topic-39-implementing-eks-in-the-aws-lab-landing-zone]]**CTP Topic 39EKS 在受限 Lab Landing Zone 网络环境下的技术实施方案——Spencer 和 Guy 分享。核心问题Micro Focus 网络的 AWS Lab 环境 IP 地址池不足,无法满足 OctaneIP 密集型 SaaS 应用)的 EKS Pod 需求。解决方案:创建独立私有子网(非主 VPC 子网),由 EKS 模块自定义网络标志控制 Pod IP 分配Pod 规范设置 `hostNetwork: true` 使其同时访问内部 Micro Focus 网络和外部资源Terraform/Terragrunt 模块封装完整 EKS 部署逻辑支持跨账户角色映射。Atlantis 当前不支持 EKS 部署,需通过 Jenkins + Terragrunt 模块替代。属 [[Amazon EKS]] 在受限网络场景下的技术实践,与 [[ctp-topic-70-eks-deployment-using-iac]]IaC 部署)共同构成 EKS 完整知识链路。
**[[ctp-topic-70-eks-deployment-using-iac]]**CTP Topic 70EKS 集群通过 IaC 部署的完整方法论——涵盖容器与 VM 的对比(启动速度/内存效率/可移植性、EKS 核心特性(完全托管控制平面/零停机滚动更新/IAM RBAC 最小权限。SRE EKS 模块支持两种部署路径Terraform`tera-grant.scl` 定义集群参数+Secret Manager 集成)和 Service Catalog模块化产品组合+版本选择)。自定义网络通过 EMIENI Multi-IP为 Pod 分配额外 IP 地址解决 VPC CIDR 限制Cluster Autoscaler 实现 Worker Node 自动扩缩容。监控栈CloudWatch Agent + FluentBitDaemonSet+ Container Insights + AWS OpenTelemetry + Grafana。属 [[Amazon EKS]] 部署方法的完整入口,与 [[ctp-topic-59-achieving-reliability-with-amazon-eks]](可靠性)、[[ctp-topic-64-scaling-out-with-amazon-eks]](扩缩容)、[[public-cloud-learning-sessions-eks-optimization-part-3-of-3-introduction-to-eks]]Auto Mode共同构成 EKS 完整知识链路。
**[[ctp-topic-59-achieving-reliability-with-amazon-eks]]**CTP Topic 59Amazon EKS 可靠性最佳实践——AWS 高级解决方案架构师 Surav Paul 主讲。涵盖 EKS 容器服务选型ECS vs EKS、可靠性定义可预测行为、故障检测、优雅降级、自愈、按需扩缩、shared responsibility modelAWS 负责控制平面,客户负责工作节点/OS/应用配置Fargate 模式下客户无需管理节点)、应用层可靠性(避免单例 Pod、AZ 分散、拓扑分布约束、HPA/VPA 扩缩容、Rolling/Blue-Green/Canary 部署、存活/就绪/启动探针、PodDisruptionBudget、控制平面可靠性监控 API server 指标、安全认证加固、准入 Webhook 管理、集群升级 14 个月支持周期和数据平面可靠性节点问题检测、资源预留、QoS、资源配额、Pod 优先级抢占)。属 [[Amazon EKS]] 生产级可靠性保障的核心知识来源,与 [[ctp-topic-70-eks-deployment-using-iac]]IaC 部署)和 [[ctp-topic-64-scaling-out-with-amazon-eks]](扩缩容)共同构成 EKS 完整知识链路。
**[[ctp-topic-4-using-agile-to-run-the-cloud-transformation-program]]**CTP Topic 4云转型计划中敏捷实践的落地经验——Heather Norris 主讲。核心内容:①框架演进——从 Scrum两周 Sprint含 Product Backlog/Sprint Planning/Retrospectives/Reviews/Daily Scrum因"Sprint 期间不允许变更"的问题而转向 Kanban 持续流动模式;②混合方案——以 Kanban 为主(随时可调整优先级、持续交付),同时保留 Scrum 的固定仪式每日站会和回顾会议③Microsoft Planner 看板——五列布局Backlog/To Do/In Progress/Program Key Decisions/Icebox每张卡必须指定单一负责人、链接依赖、设置优先级和截止日期④核心价值观——"Agile is all about getting that rapid feedback to make the product and make the development culture better"。属 [[Agile Ceremonies]] 和 [[Scrum]] vs [[Kanban]] 在企业级云迁移场景下的实战案例,与 [[ctp-topic-57-product-backlog-managing-demand]](需求管理)和 [[ctp-topic-30-managing-change]](变更管理)共同构成 CTP 项目管理知识体系。
**[[public-cloud-learning-sessions-applicable-business-analysis-techniques-20240109]]**Public Cloud Learning Sessions 20240109业务分析Business Analysis基础技能与三大核心技法——T型技能模型、BOSCARD框架、干系人轮盘Stakeholder Wheel、结合元数据的用户故事需求收集。业务分析将业务需求与技术变更解决方案对齐涵盖IT系统变更、流程变更、培训和角色转换。BOSCARDBackground/Objectives/Scope/Constraints/Assumptions/Risks/Roles/Deliverables通过澄清背景、目标、范围等8个维度定义复杂新工作"早期锁定范围无价"。干系人轮盘从客户出发顺时针识别所有项目干系人。INVEST原则Independent/Negotiable/Valuable/Estimable/Small/Testable用于检查需求质量。属 [[Product-Backlog]] 和 [[Demand-Management]] 的前置技法层,与 [[ctp-topic-4]](敏捷实践)和 [[ctp-topic-57]](需求管理)共同构成云转型计划的完整方法论(规划→需求→执行)。
@@ -61,6 +69,10 @@ Cloud Transformation Programme (CTP) materials cover AWS landing zones, EKS, Ter
**[[ctp-topic-8-obm-cloud-monitoring]]**CTP Topic 8使用 Micro Focus Operations Bridge Manager (OBM) 实现 AWS 公有云监控的完整解决方案——OBM AWS Account 部署 OBM 应用、Postgres RDS 和 Operation Agent 三层组件Agent 通过 AWS Management Pack 利用 IAM Role 信任关系跨账户采集 CloudWatch 指标,无需在被监控账户安装服务器或共享 Access KeyGlobal OBM 作为 Manager of Managers 汇聚多区域 Regional OBM 数据,事件通过 SMACKS 触发工单新增实例自动发现、策略自动下发解决云环境动态性监控难题支持任意公有云AWS/Azure/GCP的 CloudWatch 兼容服务。与 [[ctp-topic-29-cloud-monitoring-saas-lz-accounts]](账户架构)互补构成完整监控体系,属 [[AWS-Landing-Zone]] 监控层的核心实践。
**[[ctp-topic-54-esm-saas-log-analytics]]**CTP Topic 54ITOM ESM SAS 架构师 Jackie 主讲的企业级日志分析解决方案ESM SaaS——涵盖 ELK/OpenSearch 技术栈架构BEATS 采集 → Logstash 处理 → Elasticsearch/OpenSearch 存储 → Kibana 可视化)、双 VPC 隔离架构(应用 VPC + 日志 VPC、Redis 缓冲层防止 Logstash 过载。安全加固涵盖静态加密NVMe 硬件级、传输加密TLS 1.2、VPC 私有流量和 RBAC 访问控制GDPR 合规要求推动日志农场按区域分割部署美国俄勒冈、欧洲。方案对比AWS OpenSearch~$1,500/月SLA 99.9%推荐、Logz.io~$4,000/月SLA 99.8%)、自托管 ELK成本低维护高、Microfocus OBA商业成熟列级访问控制。起步建议先用 Logz.io 试用,再迁移 AWS OpenSearch。与 [[ctp-topic-8-obm-cloud-monitoring]] 同属企业监控体系Topic 8 聚焦指标监控Topic 54 聚焦日志分析,共同构成完整可观测性视图。
**[[ctp-topic-42-grafana-observability-dashboard]]**CTP Topic 42企业级 Grafana 可观测性平台在 AWS 多账户环境下的架构设计与 Terraform IaC 自动化实践——涵盖 Grafana 核心定位(不存储数据,仅从数据源可视化)、基础设施架构(监控账户部署 Grafana通过 IAM 角色跨账户访问产品团队 AWS 账户、用户和团队访问控制Editor/Viewer/Admin 角色、示例仪表盘CPU/I/O/Network/EBS/Estimated Charges、告警系统Microsoft Teams 通知、Terraform 模块化供给(数据源模块 + 组织模块 + LZSAP 自动化接入、Prometheus 网络监控Checkpoint/防火墙 SNMP 指标)。与 [[ctp-topic-54-esm-saas-log-analytics]](日志分析)同属可观测性专题,共同构成监控知识体系;长期目标是构建应用级仪表盘替代 [[Micro Focus Operations Bridge Manager]]。
**[[ctp-topic-35-aws-landing-zone-design-refresher-saas-labs]]**CTP Topic 35AWS Landing Zone 设计复习——重点明确 SaaS生产与 Labs开发的职责划分。SaaS Landing Zone 为每个产品区域提供客户专属环境,产品账户连接至共享服务账户(安全、日志、网络);核心账户组包含 AD、DNS 和 Network 账户Gruntwork 账户跨所有账户管理 AMI、日志和安全。近期变更网络分段阻断对 SaaS 工作负载的直接连通性CCOEs CloudTrail 取代 Gruntworks CloudTrail 实现统一审计;入站流量拟通过 Network 账户 Checkpoint 重新路由;原生 AWS Backup 有望强制化;新账户可能取消 Management VPC。核心结论**SaaS = 生产Labs = 开发**PoC Landing Zone 将并入 Labs 以最大化资源共享Cloud Technology Design Forum 推动 Micro Focus 云交付标准化。
**[[ctp-topic-6-aws-workspaces-demo]]**CTP Topic 6AWS Workspaces 虚拟桌面解决方案实操演示——通过 AWS Workspaces 为云转型团队提供托管 Windows 虚拟桌面Windows Server 2016预装 PFSSO、Terraform、TerraGrunt、Git 和 VS Code。用户通过邮件联系 Naga 申请账号,接收注册码和用户名后登录,可立即访问 AWS ConsoleFederation和 GitHub Enterprise 并生成 SSH 密钥。演示全程约 21 分钟完成仓库克隆、PFSSO 认证和 TerraGrunt Plan 执行,达成"申请后 45 分钟内运行 Terraform"的目标。未来计划与 Active Directory 集成实现自动化账号管理。属 [[AWS-Landing-Zone]] 用户端工具层的核心实践,与 [[ctp-topic-1-gruntwork-landing-zone-architecture]](基础架构)和 [[ctp-topic-9-ci-cd-with-gruntwork]]CI/CD 流程)共同构成完整的"架构→交付→使用"链路。
@@ -83,7 +95,7 @@ Cloud Transformation Programme (CTP) materials cover AWS landing zones, EKS, Ter
**[[ctp-topic-61-workload-vpc-provision-with-ipam-automation]]**CTP Topic 61Workload VPC 完整自动化供给方案——PushkaPrincipal SRE主讲在 Topic 45 的 IPAM 自动分配机制基础上,展示了端到端 VPC 供给流程。核心增强:多 VPC 批量供给支持、邮件通知机制、CIDR /22 阈值自动审批(更大 CIDR 自动,更小需理由审批)、非路由 IP 地址(如 10.2.0.0/16支持、使用 AZ ID 避免跨账号不一致。Infoblox Grid 作为全局唯一 IP 地址数据源防止重叠,架构包含休斯顿数据中心主库及冗余 DNS/NTP/DHCP 服务。核心理念:**"只需把信息放到正确位置,一切自动完成。"** 属 [[IPAMIP Address Management]] 的应用层扩展,与 [[ctp-topic-45-automatic-ip-address-allocation-with-ipam]] 共同构成 IPAM 的"机制 → 应用"完整链路。
Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Waste]], [[Benefits-Quantification]], [[Cost-of-Delay]], [[WSJF]], [[SOM]], [[Feature-Level-Value-Breakdown]], [[Program-Demand-Process]], [[Proof-of-Concept]], [[Gate-Process]], [[Solution-Design]], [[Landing Zone Architecture]], [[Product-Backlog]], [[Demand-Management]], [[SMACs]], [[Prerequisite-Phase]], [[Hyper-Care]], [[Octane]], [[Hybrid DNS Resolution]], [[VMware-Cloud-on-AWS]], [[VMware]], [[HCX]], [[SDDC]], [[Stretched-Cluster]], [[Hybrid-Cloud]], [[Multi-Cloud Strategy]], [[Multi-Cloud-ROI]], [[DevOps Culture]], [[CI/CD Pipeline]], [[DevSecOps]], [[Shift-Left-Security]], [[Shift-Right-Security]], [[SAST]], [[DAST]], [[IAST]], [[SCA]], [[Break-the-Build]], [[Agile Practices]], [[DevOps Maturity]], [[DORA Metrics]], [[Infrastructure as Code]], [[Cloud-Native]], [[Cloud Maturity Levels]], [[Cloud Adoption Strategy]], [[Cloud Service Delivery]], [[Cloud DevOps Maturity Model]], [[Cloud Operating Model]], [[Cloud Governance]], [[Cloud Cost Optimization]], [[Serverless Computing]], [[Edge Computing]], [[Green Computing]], [[Data-Warehouse]], [[MPP]], [[Columnar-Storage]], [[Sort-Key]], [[Distribution-Key]], [[Vendor-Lock-In]], [[Data-Sovereignty]], [[NFR非功能需求]], [[Error Budget错误预算]], [[Chaos Engineering]], [[高可用High Availability]], [[灾难恢复架构模式]], [[Vault Lock]], [[跨账户备份]], [[增量备份]], [[SPF]], [[DKIM]], [[TLS]], [[API-Key-Rotation]], [[Cyber-Suite]], [[CBC-Mode]], [[SendGrid]], [[Twilio]] vs [[全量备份]]CTP Topic 72增量仅捕获变更节省存储成本、**[[AWS Backup Audit Manager]]**BAMCTP Topic 72合规审计报告、**[[AWS-Tagging-Standards]]**CTP Topic 28AWS 标签规范,涵盖命名约定、强制标签键、成本标签策略;与 Checkpoint 防火墙安全策略直接关联,标签缺失导致流量拦截)、**[[Tag-Validation-Tool]]**CTP Topic 28SRE 团队开发的 Python/Boto3 工具,通过 YAML 配置扫描 AWS 资源标签合规性)、**[[Service-Control-Policies-SCPs]]**AWS Organizations 策略类型,通过「显式拒绝」逻辑强制执行标签规范)、**[[OU-Layered-Security]]**(通过组织单元分层结构检查标签确保正确归属)、**[[Tag-Based-Security]]**(将资源标签作为安全凭证替代传统 IP 规则)、**[[Checkpoint-Firewall]]**(防火墙供应商,依赖 AWS 标签值配置网络访问策略)、**[[Variables-YAML]]**Tag Validation Tool 核心配置文件,定义每个账户的合法标签键及允许值)、**[[SRE-Tools-Repository]]**(内部代码仓库,存放 Tag Validation Tool 等 SRE 自动化脚本):[[WAF]], [[APM]], [[Cloud Security]], [[Cloud Migration]], [[High Availability]], [[Pay-as-you-go]], [[Failover]], [[Multi-factor-Authentication]], [[Data-Governance]], [[Continuous Integration]], [[Continuous Deployment]], [[Lead Time]], [[Time-to-Market]], [[MTTR]], [[MTTD]], [[MTTA]], [[Change Failure Rate]], [[Error Budget]], [[Rollback Rate]], [[Availability]], [[Scalability]], **[[Agentic AI]]**, [[Root Cause Analysis (RCA)]], [[Predictive Maintenance]], [[Deployment Automation]], [[Rightsizing]], [[Automated Security Audit]], [[AI ChatOps]], [[What-If Simulation]], **[[RTO]]**, **[[RPO]]**, **[[Feature Flag]]**, **[[Kill Switch]]**, **[[Progressive Rollout]]**, **[[Micro-Recovery]]**, **[[Deployment-vs-Release]]**, **[[Business Impact Analysis]]**, **[[Public Cloud]]**, **[[Private Cloud]]**, **[[Hybrid Cloud]]**, **[[Shared Responsibility Model]]**, [[Multi-Tenancy]], [[Intentional Cloud Strategy]], **[[Centralized Logging]]**, **[[Cross-Account Monitoring]]**, **[[Multi-Account Deployment]]**, **[[StackSets Deployment Visibility]]**, [[CMDB]], [[Problem-Management]], [[Release-Management]], [[Configuration-Management]], [[Asset-Management]], [[Security-and-Compliance]], [[DRaaS]], [[Canary-Release]], [[Blue-Green-Deployment]], [[Threat Modeling]], [[OWASP-Top-Ten]], [[Bug-Bounty]], [[Vulnerability-Scanning]], [[Penetration-Testing]], [[Compliance-Automation]]
Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Waste]], [[Benefits-Quantification]], [[Cost-of-Delay]], [[WSJF]], [[SOM]], [[Feature-Level-Value-Breakdown]], [[Program-Demand-Process]], [[Proof-of-Concept]], [[Gate-Process]], [[Solution-Design]], [[Landing Zone Architecture]], [[Product-Backlog]], [[Demand-Management]], [[SMACs]], [[Prerequisite-Phase]], [[Hyper-Care]], [[Octane]], [[Hybrid DNS Resolution]], [[VMware-Cloud-on-AWS]], [[VMware]], [[HCX]], [[SDDC]], [[Stretched-Cluster]], [[Hybrid-Cloud]], [[Multi-Cloud Strategy]], [[Multi-Cloud-ROI]], [[DevOps Culture]], [[CI/CD Pipeline]], [[DevSecOps]], [[Shift-Left-Security]], [[Shift-Right-Security]], [[SAST]], [[DAST]], [[IAST]], [[SCA]], [[Break-the-Build]], [[Agile Practices]], [[DevOps Maturity]], [[DORA Metrics]], [[Infrastructure as Code]], [[Cloud-Native]], [[Cloud Maturity Levels]], [[Cloud Adoption Strategy]], [[Cloud Service Delivery]], [[Cloud DevOps Maturity Model]], [[Cloud Operating Model]], [[Cloud Governance]], [[Cloud Cost Optimization]], [[Serverless Computing]], [[Edge Computing]], [[Green Computing]], [[Data-Warehouse]], [[MPP]], [[Columnar-Storage]], [[Sort-Key]], [[Distribution-Key]], [[Vendor-Lock-In]], [[Data-Sovereignty]], [[NFR非功能需求]], [[Error Budget错误预算]], [[Chaos Engineering]], [[高可用High Availability]], [[灾难恢复架构模式]], [[Vault Lock]], [[ELK Stack]], [[OpenSearch]], [[Logstash]], [[Kibana]], [[BEATS]], [[Filebeat]], [[OpenTelemetry]], [[Fluent Bit]], [[Observability可观测性]], [[OTLPOpenTelemetry Protocol]], [[Three Signals]], [[Centralized-Logging]], [[Redis缓存]], [[RBAC]], [[TLS]], [[API-Key-Rotation]], [[跨账户备份]], [[增量备份]], [[SPF]], [[DKIM]], [[TLS]], [[API-Key-Rotation]], [[Cyber-Suite]], [[CBC-Mode]], [[SendGrid]], [[Twilio]] vs [[全量备份]]CTP Topic 72增量仅捕获变更节省存储成本、**[[AWS Backup Audit Manager]]**BAMCTP Topic 72合规审计报告、**[[AWS-Tagging-Standards]]**CTP Topic 28AWS 标签规范,涵盖命名约定、强制标签键、成本标签策略;与 Checkpoint 防火墙安全策略直接关联,标签缺失导致流量拦截)、**[[Tag-Validation-Tool]]**CTP Topic 28SRE 团队开发的 Python/Boto3 工具,通过 YAML 配置扫描 AWS 资源标签合规性)、**[[Service-Control-Policies-SCPs]]**AWS Organizations 策略类型,通过「显式拒绝」逻辑强制执行标签规范)、**[[OU-Layered-Security]]**(通过组织单元分层结构检查标签确保正确归属)、**[[Tag-Based-Security]]**(将资源标签作为安全凭证替代传统 IP 规则)、**[[Checkpoint-Firewall]]**(防火墙供应商,依赖 AWS 标签值配置网络访问策略)、**[[Variables-YAML]]**Tag Validation Tool 核心配置文件,定义每个账户的合法标签键及允许值)、**[[SRE-Tools-Repository]]**(内部代码仓库,存放 Tag Validation Tool 等 SRE 自动化脚本):[[WAF]], [[APM]], [[Cloud Security]], [[Cloud Migration]], [[High Availability]], [[Pay-as-you-go]], [[Failover]], [[Multi-factor-Authentication]], [[Data-Governance]], [[Continuous Integration]], [[Continuous Deployment]], [[Lead Time]], [[Time-to-Market]], [[MTTR]], [[MTTD]], [[MTTA]], [[Change Failure Rate]], [[Error Budget]], [[Rollback Rate]], [[Availability]], [[Scalability]], **[[Agentic AI]]**, [[Root Cause Analysis (RCA)]], [[Predictive Maintenance]], [[Deployment Automation]], [[Rightsizing]], [[Automated Security Audit]], [[AI ChatOps]], [[What-If Simulation]], **[[RTO]]**, **[[RPO]]**, **[[Feature Flag]]**, **[[Kill Switch]]**, **[[Progressive Rollout]]**, **[[Micro-Recovery]]**, **[[Deployment-vs-Release]]**, **[[Business Impact Analysis]]**, **[[Public Cloud]]**, **[[Private Cloud]]**, **[[Hybrid Cloud]]**, **[[Shared Responsibility Model]]**, [[Multi-Tenancy]], [[Intentional Cloud Strategy]], **[[Centralized Logging]]**, **[[Cross-Account Monitoring]]**, **[[Multi-Account Deployment]]**, **[[StackSets Deployment Visibility]]**, [[CMDB]], [[Problem-Management]], [[Release-Management]], [[Configuration-Management]], [[Asset-Management]], [[Security-and-Compliance]], [[DRaaS]], [[Canary-Release]], [[Blue-Green-Deployment]], [[Threat Modeling]], [[OWASP-Top-Ten]], [[Bug-Bounty]], [[Vulnerability-Scanning]], [[Penetration-Testing]], [[Compliance-Automation]]
**[[ctp-topic-40-saas-database-architecture]]**CTP Topic 40SAS 数据库团队在 AWS 云上的架构与运维实践——团队分布于美国/加拿大/印度/以色列,管理 500+ 数据库和 1000+ DB 服务器;支持 Oracle、Vertica、Postgres、DynamoDB、SQL Server、MongoDB、MySQL 等多引擎;高可用架构采用三可用区模式(主库/备用库/见证节点);使用 Oracle Data Guard、Postgres Active-Passive/Active-Active、RDS HA 实现多活;通过 Terraform、AWS CLI、Shell/PowerShell 实现 IaC 自动化Oracle GoldenGate 支持零停机迁移。属 [[AWS-Landing-Zone]] 数据库层的核心实践,与 [[ctp-topic-51-purpose-built-databases]](数据库品类全景)和 [[ctp-topic-66-rds-vs-aurora]](关系型选型)共同构成完整的 AWS 数据库知识体系。
@@ -119,6 +131,8 @@ Key concepts: [[Process]], [[Value]], [[Value-Stream]], [[Value-Adding]], [[Wast
**[[public-cloud-learning-sessions-opentext-thor-platform-flows-20241210-160056-meet]]**Learning SessionsArnold Dacan 主讲Project Thor 平台架构与数据流设计详解——五大支柱框架(敏捷周期治理、产品发布治理、开发者门户 Backstage、安全与治理、Build Hub核心数据流源代码流GitLab→ 制造流程Build Farms→ Artifactory → 客户环境;地理分布:工具链主站点 Brook Park + 灾备站点 Sacramento标准化目标统一 GitLab/Artifactory/UCMDB 工具链,夯实供应链安全基础。属 [[DevOps Culture]] 企业级工具链标准化与供应链安全的深度补充,与 GitHub→GitLab 迁移文档共同构成 Project Thor 知识体系。
**[[public-cloud-learning-sessions-opentext-gis-security-policies-20241015-160257-me]]**Learning SessionsMike & Ed 主讲OpenText 全球信息安全团队GIS安全策略全景——GIS 是分层组织架构包含安全运营事件响应与保障、合规认证与政策执行、治理风险验证GRV季度审查 Admin 角色、隐私新增集成中四个支柱。OpenText 采用分层方法定义安全策略——与各团队协作定义"做什么",与执行团队协作确定"怎么做";持有 FedRAMP 等多项行业及政府认证,可进入多个垂直市场销售;每月处理 2250 亿条日志,分诊约 350 个案例。姿态框架基于 ISO 270012022 年更新,新增 11 个控制方面Global Information Security PolicyGISP是最高纲领性政策季度审查。安全运营涵盖 Cyber Response Center、威胁情报BrightCloud、云安全、安全工具与工程等核心服务合规组织涵盖合规项目、路线图、产品风险评估、持续合规与审计、自动化等内容。属企业级安全治理体系的核心入门与 [[ctp-topic-10-aws-landing-zone-lz-data-collection-tagging-related-security]]AWS 层面标签化安全互补——GISP 定义全局政策纲领Landing Zone 层面通过标签和 SCP 实现技术落地。
**[[ctp-topic-28-aws-tag-validation-tool]]**CTP Topic 28AWS 标签验证工具——Lewis Brown 主讲SRE 团队开发的 Python/Boto3 工具。Checkpoint 防火墙通过读取 EC2、安全组、负载均衡器的标签值动态配置网络访问策略标签缺失或无效将导致流量被拦截SCPs 可阻止不合规资源创建但无法修复存量资源。该工具通过 `variables.yaml` 定义每个账户的合法标签值,自动扫描 EC2/安全组/负载均衡器/Lambda生成 CSV 审计报告。使用 Poetry 管理 Python 环境,存放于 SRE Tools Repository。标签策略还计划用于未来成本核算区分同一账户下不同产品的资源消耗。属 [[AWS-Landing-Zone]] 标签治理闭环的核心补充——制定规范Topic 10→ 强制执行SCPs→ 审计发现Topic 28
**[[ctp-topic-30-managing-change]]**CTP Topic 30云转型中的变更管理与 SRE 团队协作——Brendan StarnigSRE Function Lead主讲。核心内容①SRE 职责——用软件工程思维解决运维问题追求可靠性、可测试性、可重复性核心是打破运维与产品的壁垒②变更分类——Standard Change预批准完全自动化 IaC+CI/CD无需 CAB→ Normal Change需 CAB 审批,目标是通过自动化逐步归入 Standard Change→ Emergency Change立即执行缓解事故事后 CAPA/Post-mortem 修复根因③SRE 三阶段协作——构建Build/早期上线支持Early Live Support/BAU④Self-Healing 演进方向——各产品组分享实践SRE 协助在监控产品中落地。属 [[AWS-Landing-Zone]] 运维治理层的核心补充,与 [[ctp-topic-28-aws-tag-validation-tool]]IaC 变更的 Tagging 标准属于 Standard Change 范畴)共同构成变更管理知识体系。