--- title: "CTP Topic 60 - Monitor AWS using Hyperscale Observability with Grafana" type: source tags: - AWS - Grafana - Observability - Hyperscale - CTP date: 2026-04-14 --- ## Source File - [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/04_EKS/ctp-topic-60-monitor-aws-using-hyperscale-observability-with-grafana.md]] ## Summary(用中文描述) - 核心主题:使用 Grafana 实现 AWS 超大规模可观测性监控 - 问题域:云原生监控体系、Grafana 企业版功能、Dashboard as Code 实践 - 方法/机制:Grafana 与多种数据源集成、Terraform 模块自动化供给告警配置、资源标签化管理、Optic DR 数据采集 - 结论/价值:推动从开源版 Grafana 迁移至企业版以释放全部潜力;Terraform 模块使产品团队自助消费监控能力;默认指标不产生额外成本,自定义指标可能产生费用 ## Key Claims(用中文描述) - Grafana 企业版相比开源版提供了更完整的功能集,应作为监控体系的升级目标 - Terraform 模块通过声明式配置自动化创建 Grafana 组织、用户、文件夹、IAM 角色和仪表板 - Optic DR 作为内部监控插件,是将数据导入 Grafana 仪表板的关键数据源 - 资源标签化是实现成本核算和资源有效管理的基础 - Grafana 告警系统支持灵活配置多种通知渠道,可转发至 Opsbridge 创建工单 ## Key Quotes > "Grafana's ability to provision infrastructure and applications using Terraform modules (dashboard as code) is highlighted" — Dashboard 即代码的核心价值体现 > "Optic DR, an internal monitoring solution and plugin of VaticaDB, is crucial for pulling data into Grafana dashboards" — 内部数据源与 Grafana 的集成方式 > "Default metrics do not incur additional costs, but custom metrics may" — 成本影响的关键说明 ## Key Concepts - [[Hyperscale Observability]]:超大规模可观测性——针对大规模云环境的多维度监控能力 - [[Dashboard as Code]]:通过 Terraform 模块声明式定义 Grafana 资产,实现监控配置的版本控制和自动化部署 - [[Grafana Alert System]]:Grafana 告警系统——支持灵活配置通知渠道,可与 Opsbridge 等工单系统集成 - [[Resource Tagging]]:资源标签化——通过标签对 AWS 资源进行分类管理,是成本核算和安全策略的基础 - [[Instance Monitoring]]:实例监控——识别资源利用率,帮助优化成本和性能 - [[Event Tracking]]:事件追踪——监控由 OpsBridge AWS 监控解决方案触发的日常活跃事件 ## Key Entities - [[Vinay]]:演讲者,代替休假中的 Sashi 主持本次学习会议 - [[Optic DR]]:内部监控解决方案,VaticaDB 的插件,用于将数据导入 Grafana 仪表板 - [[Opsbridge]]:*Opsbridge 监控解决方案,使用仪表板展示监控系统触发的事件 - [[VaticaDB]]:提供 Optic DR 插件的内部监控平台 - [[Grafana]]:开源可观测性平台,支持多种数据源集成、可视化和告警 - [[Terraform]]:基础设施即代码工具,用于自动化 Grafana 资源配置 ## Connections - [[Grafana]] ← uses ← [[Optic DR]] - [[Grafana]] ← integrates_with ← [[Opsbridge]] - [[Grafana]] ← provisioned_by ← [[Terraform]] - [[ctp-topic-60]] ← extends ← [[Grafana Enterprise]] - [[AWS Landing Zone]] ← monitored_by ← [[Grafana]] ## Contradictions - 与 [[ctp-topic-8-obm-cloud-monitoring]] 存在互补而非冲突关系: - 冲突点:无冲突,两者针对不同监控层面 - 当前观点:Topic 60 聚焦 Grafana 和 AWS 原生监控能力 - 对方观点:Topic 8 聚焦 Micro Focus Operations Bridge Manager (OBM) 的跨云统一监控