title, type, tags, sources, last_updated
| title |
type |
tags |
sources |
last_updated |
| Databricks |
entity |
| data-engineering |
| lakehouse |
| analytics-platform |
| cloud |
|
| engineering-data-engineer |
|
2026-05-02 |
Overview
Databricks 是基于 Apache Spark 的统一分析和 AI 平台,提供 Lakehouse、Notebook、MLflow、Delta Live Tables(DLT)和 Unity Catalog 等能力。Data Engineer Agent 使用 Databricks 作为主要的托管执行环境。
Key Products for Data Engineering
Unity Catalog
- 统一治理:跨云(AWS/Azure/GCP)的数据目录和权限管理
- 细粒度行级安全(Row-Level Security)和列掩码(Column Masking)
Delta Live Tables (DLT)
- 声明式流式和批处理管道
- 自动管理基础设施、checkpoint 和数据质量
- 内置期望(Expectations)定义,数据质量自动验证
Databricks Workflows
- 编排多任务管道(notebooks + SQL + JAR)
- 支持 CI/CD 集成(Asset Bundles)
Asset Bundles
- 基础架构即代码(IaC)方式管理 Databricks 资源
- 可与 GitHub Actions 集成实现自动化部署
Cloud Platforms
- AWS:S3 + Databricks
- Azure:ADLS + Databricks (Microsoft Fabric 集成)
- GCP:GCS + Databricks
Related Concepts