74 lines
5.1 KiB
Markdown
74 lines
5.1 KiB
Markdown
---
|
||
title: "CTP Topic 67 Cloud native observability using OpenTelemetry"
|
||
type: source
|
||
tags:
|
||
- OpenTelemetry
|
||
- Observability
|
||
- Cloud-Native
|
||
- CTP
|
||
- AWS
|
||
- EKS
|
||
- ECS
|
||
date: 2026-04-14
|
||
---
|
||
|
||
## Source File
|
||
- [[raw/Cloud & DevOps/Public-Cloud-Learning-Sessions/04_EKS/ctp-topic-67-cloud-native-observability-using-opentelemetry.md]]
|
||
|
||
## Summary(用中文描述)
|
||
- 核心主题:AWS EKS/ECS 环境下的云原生可观测性实践,以 AWS Distro for OpenTelemetry (ADOT) 为核心工具实现统一监控。
|
||
- 问题域:云原生环境下系统复杂度激增,如何通过标准化的可观测性方案实现主动式故障排查与性能优化。
|
||
- 方法/机制:OpenTelemetry 提供厂商无关的代码插桩库和 Collector 组件(Receivers → Processors → Exporters),ADOT 在此基础上增加 AWS 专用组件和 SIGV4 认证扩展;三种观测信号(Traces/Metrics/Logs)贯穿应用层与基础设施层,通过 Correlation ID 实现跨信号关联。
|
||
- 结论/价值:ADOT 是 AWS EKS/ECS 生产级可观测性的推荐方案,支持 Sidecar/独立任务/DaemonSet/HA Replicas 等多种部署模式,可对接 CloudWatch/X-Ray/Prometheus/Grafana 等多种后端。
|
||
|
||
## Key Claims(用中文描述)
|
||
- 可观测性是管理云原生系统复杂度的必要手段——通过收集 Traces/Metrics/Logs 三种信号,实现反应式和主动式故障排查。
|
||
- 构建可观测的应用是开发者的责任——开发者需要主动在代码中植入观测能力,而非依赖运维事后补救。
|
||
- OpenTelemetry Collector 的核心架构由 Receivers(采集信号)、Processors(转换处理)和 Exporters(导出目的地)三部分组成,实现厂商无关的信号管道。
|
||
- ADOT 在标准 OTEL Collector 基础上封装了 AWS 专用组件,包含 SIGV4 Auth Extension 实现对 AWS 服务的无缝集成。
|
||
- Trace 捕获应用调用栈中各层的处理耗时,是性能瓶颈定位的核心手段。
|
||
- 从应用层和基础设施层同时采集 Metrics 可获得完整的应用视图,包括业务级指标和 X-Ray 服务图。
|
||
- Correlation ID(如 X-Ray Trace ID)使日志事件可深度链接至 Trace 视图,实现端到端的故障追踪。
|
||
- ADOT 支持多种 EKS/ECS 部署模式,EKS Add-on 方式通过 Operator 和 Terraform 模块简化部署并提供预置 Grafana 仪表盘。
|
||
|
||
## Key Quotes
|
||
> "Observability is essential for managing complexity as systems evolve." — Surav, AWS
|
||
|
||
> "Building observable applications is a developer responsibility." — Surav, AWS
|
||
|
||
> "A trace captures the processing time taken at individual layers in your application call stack." — Surav, AWS
|
||
|
||
## Key Concepts
|
||
- [[OpenTelemetry]]:厂商无关的可观测性框架,提供跨语言的 SDK 和 Collector 组件
|
||
- [[Observability(可观测性)]]:通过外部输出推断内部状态的能力,核心三信号为 Traces/Metrics/Logs
|
||
- [[AWS Distro for OpenTelemetry (ADOT)]]:AWS 维护的 OpenTelemetry 生产级发行版,含 AWS 专用组件
|
||
- [[Three Signals]]:Traces(调用链追踪)、Metrics(指标)、Logs(日志)
|
||
- [[OTLP(OpenTelemetry Protocol)]]:OpenTelemetry 的标准传输协议
|
||
- [[Fluent Bit]]:容器日志采集器,常与 OTEL Collector 配合使用
|
||
- [[X-Ray]]:AWS 原生分布式追踪服务
|
||
- [[Prometheus]]:开源时序数据库和监控告警系统
|
||
- [[Grafana]]:开源可视化平台,常与 Prometheus/X-Ray 配合构建仪表盘
|
||
- [[SIGV4 Auth Extension]]:OTEL Collector 的 AWS 认证扩展,用于访问 AWS 托管服务
|
||
|
||
## Key Entities
|
||
- [[Amazon EKS]]:AWS 托管 Kubernetes 服务,ADOT 的主要部署目标
|
||
- [[Amazon ECS]]:AWS 容器编排服务,支持 ADOT Sidecar 和独立任务两种部署模式
|
||
- [[AWS Distro for OpenTelemetry (ADOT)]]:AWS 官方的 OpenTelemetry 发行版
|
||
- [[CloudWatch]]:AWS 原生监控服务,可作为 ADOT 的 Exporter 目标
|
||
- [[Surav (AWS)]]:AWS 解决方案架构师,CTP Topic 67 讲师
|
||
|
||
## Connections
|
||
- [[public-cloud-learning-sessions-observability-with-opentelemetry-20240402-160113]] ← same_topic ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
|
||
- 两篇均为 OpenTelemetry 主题,前者为 Jay Comer 主讲的 Learning Sessions 概述,后者为 Surav 主讲的 CTP Topic 深度实践
|
||
- [[ctp-topic-42-grafana-observability-dashboard]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
|
||
- Grafana 是 ADOT 推荐的可视化后端
|
||
- [[ctp-topic-54-esm-saas-log-analytics]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
|
||
- ESM SaaS 日志分析方案与 OTEL 日志采集互补,共同构成企业级可观测性视图
|
||
- [[ctp-topic-59-achieving-reliability-with-amazon-eks]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
|
||
- EKS 可靠性实践需要可观测性支撑,监控是 SRE 可靠性的核心组成
|
||
- [[ctp-topic-70-eks-deployment-using-iac]] ← related ← [[ctp-topic-67-cloud-native-observability-using-opentelemetry]]
|
||
- EKS IaC 部署后需配置 ADOT Add-on 完成监控栈落地
|
||
|
||
## Contradictions
|
||
- 无已知冲突内容。
|