Files
nexus/wiki/sources/ctp-topic-67-cloud-native-observability-using-opentelemetry.md

74 lines
5.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "CTP Topic 67 Cloud native observability using OpenTelemetry"
type: source
tags:
- OpenTelemetry
- Observability
- Cloud-Native
- CTP
- AWS
- EKS
- ECS
date: 2026-04-14
---
## Source File
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/04_EKS/ctp-topic-67-cloud-native-observability-using-opentelemetry.md]]
## Summary用中文描述
- 核心主题AWS EKS/ECS 环境下的云原生可观测性实践,以 AWS Distro for OpenTelemetry (ADOT) 为核心工具实现统一监控。
- 问题域:云原生环境下系统复杂度激增,如何通过标准化的可观测性方案实现主动式故障排查与性能优化。
- 方法/机制OpenTelemetry 提供厂商无关的代码插桩库和 Collector 组件Receivers → Processors → ExportersADOT 在此基础上增加 AWS 专用组件和 SIGV4 认证扩展三种观测信号Traces/Metrics/Logs贯穿应用层与基础设施层通过 Correlation ID 实现跨信号关联。
- 结论/价值ADOT 是 AWS EKS/ECS 生产级可观测性的推荐方案,支持 Sidecar/独立任务/DaemonSet/HA Replicas 等多种部署模式,可对接 CloudWatch/X-Ray/Prometheus/Grafana 等多种后端。
## Key Claims用中文描述
- 可观测性是管理云原生系统复杂度的必要手段——通过收集 Traces/Metrics/Logs 三种信号,实现反应式和主动式故障排查。
- 构建可观测的应用是开发者的责任——开发者需要主动在代码中植入观测能力,而非依赖运维事后补救。
- OpenTelemetry Collector 的核心架构由 Receivers采集信号、Processors转换处理和 Exporters导出目的地三部分组成实现厂商无关的信号管道。
- ADOT 在标准 OTEL Collector 基础上封装了 AWS 专用组件,包含 SIGV4 Auth Extension 实现对 AWS 服务的无缝集成。
- Trace 捕获应用调用栈中各层的处理耗时,是性能瓶颈定位的核心手段。
- 从应用层和基础设施层同时采集 Metrics 可获得完整的应用视图,包括业务级指标和 X-Ray 服务图。
- Correlation ID如 X-Ray Trace ID使日志事件可深度链接至 Trace 视图,实现端到端的故障追踪。
- ADOT 支持多种 EKS/ECS 部署模式EKS Add-on 方式通过 Operator 和 Terraform 模块简化部署并提供预置 Grafana 仪表盘。
## Key Quotes
> "Observability is essential for managing complexity as systems evolve." — Surav, AWS
> "Building observable applications is a developer responsibility." — Surav, AWS
> "A trace captures the processing time taken at individual layers in your application call stack." — Surav, AWS
## Key Concepts
- [[OpenTelemetry]]:厂商无关的可观测性框架,提供跨语言的 SDK 和 Collector 组件
- [[Observability可观测性]]:通过外部输出推断内部状态的能力,核心三信号为 Traces/Metrics/Logs
- [[AWS Distro for OpenTelemetry (ADOT)]]AWS 维护的 OpenTelemetry 生产级发行版,含 AWS 专用组件
- [[Three Signals]]Traces调用链追踪、Metrics指标、Logs日志
- [[OTLPOpenTelemetry Protocol]]OpenTelemetry 的标准传输协议
- [[Fluent Bit]]:容器日志采集器,常与 OTEL Collector 配合使用
- [[X-Ray]]AWS 原生分布式追踪服务
- [[Prometheus]]:开源时序数据库和监控告警系统
- [[Grafana]]:开源可视化平台,常与 Prometheus/X-Ray 配合构建仪表盘
- [[SIGV4 Auth Extension]]OTEL Collector 的 AWS 认证扩展,用于访问 AWS 托管服务
## Key Entities
- [[Amazon EKS]]AWS 托管 Kubernetes 服务ADOT 的主要部署目标
- [[Amazon ECS]]AWS 容器编排服务,支持 ADOT Sidecar 和独立任务两种部署模式
- [[AWS Distro for OpenTelemetry (ADOT)]]AWS 官方的 OpenTelemetry 发行版
- [[CloudWatch]]AWS 原生监控服务,可作为 ADOT 的 Exporter 目标
- [[Surav (AWS)]]AWS 解决方案架构师CTP Topic 67 讲师
## Connections
- [[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]] ← same_topic ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
- 两篇均为 OpenTelemetry 主题,前者为 Jay Comer 主讲的 Learning Sessions 概述,后者为 Surav 主讲的 CTP Topic 深度实践
- [[ctp-topic-42-grafana-observability-dashboard]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
- Grafana 是 ADOT 推荐的可视化后端
- [[ctp-topic-54-esm-saas-log-analytics]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
- ESM SaaS 日志分析方案与 OTEL 日志采集互补,共同构成企业级可观测性视图
- [[ctp-topic-59-achieving-reliability-with-amazon-eks]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
- EKS 可靠性实践需要可观测性支撑,监控是 SRE 可靠性的核心组成
- [[ctp-topic-70-eks-deployment-using-iac]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
- EKS IaC 部署后需配置 ADOT Add-on 完成监控栈落地
## Contradictions
- 无已知冲突内容。