nexus/wiki/concepts/AI文生视频.md

---
title: "AI文生视频"
type: concept
tags: [ai, video-generation, text-to-video]
---

## Definition
AI文生视频（Text-to-Video）是一种通过文本描述直接生成视频内容的人工智能技术。用户输入自然语言提示词，模型自动生成包含场景、角色、动作的动态视频。与 [[AI图生视频]] 互补：文生视频从零开始创作，图生视频则在静态图片基础上添加动态效果。

## Aliases
- 文生视频
- Text to Video (T2V)
- TXT2VID
- AI Video Generation from Text

## Core Techniques
- **文本编码**：将自然语言提示词编码为语义向量
- **图像生成**：基于文本语义生成视频首帧或关键帧
- **时序扩散**：通过扩散模型逐步生成帧间连续画面
- **运动建模**：根据文本描述生成合理的物理运动
- **视频解码**：将生成的隐表示解码为最终视频帧序列

## Key Capabilities
- 纯文本驱动，无需准备素材图片
- 支持复杂场景描述和角色交互
- 风格可控（写实、动漫、3D等）
- 生成时长通常2-6秒

## Applications
- 概念演示视频
- 营销视频自动生成
- 创意内容快速原型

## Related Concepts
- [[AI图生视频]]：在静态图片基础上添加动态效果，与本文生视频互补
- [[运镜控制]]：摄像机运动参数对视频效果的影响