Files
nexus/wiki/entities/Databricks.md
2026-05-03 05:42:12 +08:00

1.4 KiB
Raw Blame History

title, type, tags, sources, last_updated
title type tags sources last_updated
Databricks entity
data-engineering
lakehouse
analytics-platform
cloud
engineering-data-engineer
2026-05-02

Overview

Databricks 是基于 Apache Spark 的统一分析和 AI 平台,提供 Lakehouse、Notebook、MLflow、Delta Live TablesDLT和 Unity Catalog 等能力。Data Engineer Agent 使用 Databricks 作为主要的托管执行环境。

Key Products for Data Engineering

Unity Catalog

  • 统一治理跨云AWS/Azure/GCP的数据目录和权限管理
  • 细粒度行级安全Row-Level Security和列掩码Column Masking

Delta Live Tables (DLT)

  • 声明式流式和批处理管道
  • 自动管理基础设施、checkpoint 和数据质量
  • 内置期望Expectations定义数据质量自动验证

Databricks Workflows

  • 编排多任务管道notebooks + SQL + JAR
  • 支持 CI/CD 集成Asset Bundles

Asset Bundles

  • 基础架构即代码IaC方式管理 Databricks 资源
  • 可与 GitHub Actions 集成实现自动化部署

Cloud Platforms

  • AWSS3 + Databricks
  • AzureADLS + Databricks (Microsoft Fabric 集成)
  • GCPGCS + Databricks