--- title: "CTP Topic 67 Cloud native observability using OpenTelemetry" type: source tags: - OpenTelemetry - Observability - Cloud-Native - CTP - AWS - EKS - ECS date: 2026-04-14 --- ## Source File - [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/04_EKS/ctp-topic-67-cloud-native-observability-using-opentelemetry.md]] ## Summary(用中文描述) - 核心主题:AWS EKS/ECS 环境下的云原生可观测性实践,以 AWS Distro for OpenTelemetry (ADOT) 为核心工具实现统一监控。 - 问题域:云原生环境下系统复杂度激增,如何通过标准化的可观测性方案实现主动式故障排查与性能优化。 - 方法/机制:OpenTelemetry 提供厂商无关的代码插桩库和 Collector 组件(Receivers → Processors → Exporters),ADOT 在此基础上增加 AWS 专用组件和 SIGV4 认证扩展;三种观测信号(Traces/Metrics/Logs)贯穿应用层与基础设施层,通过 Correlation ID 实现跨信号关联。 - 结论/价值:ADOT 是 AWS EKS/ECS 生产级可观测性的推荐方案,支持 Sidecar/独立任务/DaemonSet/HA Replicas 等多种部署模式,可对接 CloudWatch/X-Ray/Prometheus/Grafana 等多种后端。 ## Key Claims(用中文描述) - 可观测性是管理云原生系统复杂度的必要手段——通过收集 Traces/Metrics/Logs 三种信号,实现反应式和主动式故障排查。 - 构建可观测的应用是开发者的责任——开发者需要主动在代码中植入观测能力,而非依赖运维事后补救。 - OpenTelemetry Collector 的核心架构由 Receivers(采集信号)、Processors(转换处理)和 Exporters(导出目的地)三部分组成,实现厂商无关的信号管道。 - ADOT 在标准 OTEL Collector 基础上封装了 AWS 专用组件,包含 SIGV4 Auth Extension 实现对 AWS 服务的无缝集成。 - Trace 捕获应用调用栈中各层的处理耗时,是性能瓶颈定位的核心手段。 - 从应用层和基础设施层同时采集 Metrics 可获得完整的应用视图,包括业务级指标和 X-Ray 服务图。 - Correlation ID(如 X-Ray Trace ID)使日志事件可深度链接至 Trace 视图,实现端到端的故障追踪。 - ADOT 支持多种 EKS/ECS 部署模式,EKS Add-on 方式通过 Operator 和 Terraform 模块简化部署并提供预置 Grafana 仪表盘。 ## Key Quotes > "Observability is essential for managing complexity as systems evolve." — Surav, AWS > "Building observable applications is a developer responsibility." — Surav, AWS > "A trace captures the processing time taken at individual layers in your application call stack." — Surav, AWS ## Key Concepts - [[OpenTelemetry]]:厂商无关的可观测性框架,提供跨语言的 SDK 和 Collector 组件 - [[Observability(可观测性)]]:通过外部输出推断内部状态的能力,核心三信号为 Traces/Metrics/Logs - [[AWS Distro for OpenTelemetry (ADOT)]]:AWS 维护的 OpenTelemetry 生产级发行版,含 AWS 专用组件 - [[Three Signals]]:Traces(调用链追踪)、Metrics(指标)、Logs(日志) - [[OTLP(OpenTelemetry Protocol)]]:OpenTelemetry 的标准传输协议 - [[Fluent Bit]]:容器日志采集器,常与 OTEL Collector 配合使用 - [[X-Ray]]:AWS 原生分布式追踪服务 - [[Prometheus]]:开源时序数据库和监控告警系统 - [[Grafana]]:开源可视化平台,常与 Prometheus/X-Ray 配合构建仪表盘 - [[SIGV4 Auth Extension]]:OTEL Collector 的 AWS 认证扩展,用于访问 AWS 托管服务 ## Key Entities - [[Amazon EKS]]:AWS 托管 Kubernetes 服务,ADOT 的主要部署目标 - [[Amazon ECS]]:AWS 容器编排服务,支持 ADOT Sidecar 和独立任务两种部署模式 - [[AWS Distro for OpenTelemetry (ADOT)]]:AWS 官方的 OpenTelemetry 发行版 - [[CloudWatch]]:AWS 原生监控服务,可作为 ADOT 的 Exporter 目标 - [[Surav (AWS)]]:AWS 解决方案架构师,CTP Topic 67 讲师 ## Connections - [[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]] ← same_topic ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] - 两篇均为 OpenTelemetry 主题,前者为 Jay Comer 主讲的 Learning Sessions 概述,后者为 Surav 主讲的 CTP Topic 深度实践 - [[ctp-topic-42-grafana-observability-dashboard]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] - Grafana 是 ADOT 推荐的可视化后端 - [[ctp-topic-54-esm-saas-log-analytics]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] - ESM SaaS 日志分析方案与 OTEL 日志采集互补,共同构成企业级可观测性视图 - [[ctp-topic-59-achieving-reliability-with-amazon-eks]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] - EKS 可靠性实践需要可观测性支撑,监控是 SRE 可靠性的核心组成 - [[ctp-topic-70-eks-deployment-using-iac]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]] - EKS IaC 部署后需配置 ADOT Add-on 完成监控栈落地 ## Contradictions - 无已知冲突内容。