Batch 11: arXiv Paper Reader + Custom Morning Brief + Event Guest Confirmation + Daily Reddit Digest

Sources: arXiv-Paper-Reader, Custom-Morning-Brief, Event-Guest-Confirmation, Daily-Reddit-Digest Entities: SuperCall, Twilio, reddit-readonly Overview: 4 new domain sections added
2026-04-16 07:40:12 +08:00
parent e62797a33a
commit b5f5c710f0
10 changed files with 454 additions and 18 deletions
--- a/wiki/overview.md
+++ b/wiki/overview.md
@@ -1,6 +1,6 @@
 ---
 title: Wiki Overview
-last_updated: 2026-04-16 Morning Batch 9
+last_updated: 2026-04-16 Batch 11
 // 新增领域：ChatGPT 个性化指令配置与自定义指令工程（2026-04-16 Early Morning）
 // 新增领域：提示词库与变量注入技术（2026-04-16 Early Morning）
 // 新增领域：Ollama + Qwen2.5-Coder 本地 AI 推理部署（2026-04-16 Batch 2）
@@ -1041,3 +1041,179 @@ DevOps 超越工具层面，进入思维模式转变，通过文化、运营和
 // 新增领域：AI配音与声音克隆工具生态（2026-04-16 Batch 7）
 // 新增领域：AI时代产品经理能力重塑与超级个体（2026-04-16 Batch 7）
 // 新增领域：东方人生智慧新批次——知其不可奈何/忘机消众机/飘风不终朝（2026-04-16 Batch 7）
+// 新增领域：arXiv Paper Reader——对话式论文阅读助手（Prismer arxiv-reader skill + LaTeX自动展平 + 多篇对比）（2026-04-16 Batch 11）
+// 新增领域：Custom Morning Brief——定时主动任务晨报（夜间待机转化 + AI推荐可代劳任务）（2026-04-16 Batch 11）
+// 新增领域：Event Guest Confirmation——SuperCall AI外呼确认（GPT-4o Realtime + Twilio + 沙箱化Persona防泄露）（2026-04-16 Batch 11）
+// 新增领域：Daily Reddit Digest——Reddit内容聚合与偏好记忆（reddit-readonly skill + 个性化digest + Read-only模式）（2026-04-16 Batch 11）
+// 新增领域：Obsidian Tasks 插件——任务-笔记一体化（笔记+任务融合，Tasks查询语法，重复任务计划）（2026-04-16 Batch 10）
+// 新增领域：系统提示词构建原则——Claude Code Agent 行为准则（5维度94条准则，行为可预期性设计）（2026-04-16 Batch 10）
+// 新增领域：Dataview——笔记数据库插件，类SQL语法查询实现笔记资产盘活（2026-04-16 Batch 10）
+// 新增领域：基础RAG三阶段管道——Indexing→Retrieval→Generation，Qwen+BAAI+LangChain+Qdrant技术栈（2026-04-16 Batch 10）
+// 新增领域：LLM核心术语框架——LLM/MCP/Agent/RAG/vLLM/Token/数据蒸馏系统梳理（2026-04-16 Batch 10）
+
+## 新增领域：arXiv Paper Reader——对话式论文阅读助手
+
+通过 [[Prismer AI]] 的 arxiv-reader skill，OpenClaw Agent 变身为专业论文阅读助手，解决 arXiv PDF 阅读的三大痛点：下载后上下文跳跃、LaTeX 符号难解析、多篇论文无法对比。
+
+### 核心机制
+- [[arxiv-reader skill]]：3 工具接口（arxiv_fetch/arxiv_sections/arxiv_abstract），Node.js 内置模块实现，无 Docker/Python 依赖
+- [[LaTeX Flattening]]：自动解压 LaTeX 源码并展平\include 子文件，生成可读连续文档
+- 多篇对比：批量获取摘要并生成对比表格，辅助 reading list 优先级排序
+- 本地缓存：二次访问即时返回，无重复下载
+
+### 与其他 Agent Use Cases 的关系
+- [[arXiv Paper Reader]] 与 [[Custom Morning Brief]] 共用"定时主动任务"能力
+- AI 论文阅读能力是 [[内容工厂]] 和 [[产品工厂]] 的上游输入
+
+## 新增领域：Custom Morning Brief——定时主动任务晨报
+
+OpenClaw 定时晨报工作流将用户"最生产力的早晨时间"从信息获取转化为决策制定——新闻、待办、AI 主动推荐任务在起床前已准备完毕。
+
+### 核心机制
+- [[定时主动任务]]：Agent 在无用户请求时主动执行并推送结果，核心价值是"AI 推荐可代劳的任务"
+- [[晨报自动化]]：早晨信息聚合（新闻+天气+日历）+ 待办推送 + AI 主动建议
+- [[AI推荐任务]]：Agent 主动识别可自动化事项，而非仅推送信息
+- 夜间待机转化：用户睡眠期间 AI 完成研究/写作任务，产出完整脚本/商业提案
+
+### 触发条件
+- 定时 Cron（每日 8:00 AM）
+- 自定义：用户短信向 Bot 说明需求即可调整结构
+
+### 关键依赖
+- [[Alex Finn]] 的 YouTube 视频《Life-Changing OpenClaw Use Cases》激发此工作流
+- Telegram/Discord/iMessage 任一消息渠道
+- Todoist/Apple Reminders/Asana 任一任务管理器
+
+## 新增领域：Event Guest Confirmation——SuperCall AI 外呼确认
+
+通过 [[SuperCall]] AI 语音 Agent 实现活动宾客批量确认，解决手动电话 20+ 人的繁琐流程。
+
+### 核心机制
+- [[SuperCall]]：@xonder/supercall OpenClaw 插件，GPT-4o Realtime 语音驱动
+- [[沙箱化 Persona]]：每通电话独立上下文重置，不跨对话记忆，防止 Prompt 注入
+- 调用链路：SuperCall → OpenAI GPT-4o Realtime API → Twilio 拨号
+- 完整工作流：准备宾客人列 → 逐一外呼 → 记录结果 → 全量汇总（确认/拒绝/未接+备注）
+
+### 安全设计
+- AI Persona 只能访问提供的上下文（角色名+目标+开场白），不访问 OpenClaw Gateway/文件/其他工具
+- 零数据泄露风险
+
+### 成本考量
+- Twilio 按分钟计费，大型宾客列表需设置限额
+
+## 新增领域：Daily Reddit Digest——Reddit 内容聚合与偏好记忆
+
+OpenClaw Agent Reddit 内容聚合工作流，通过 reddit-readonly skill 和内容偏好记忆实现个性化每日 digest。
+
+### 核心机制
+- [[reddit-readonly]]：ClawHub 插件，无需认证读取 Reddit hot/new/top 帖子
+- [[内容偏好记忆]]：AI 维护用户内容偏好规则，随时间优化 digest 质量
+- [[定时内容推送]]：每日下午 5 点自动执行并推送 Telegram
+- [[Read-only API]]：仅消费数据不产生互动，无账号风险
+
+### 偏好学习
+- 用户反馈循环：每日 ask "Did you like the list?" → 规则写入 memory
+- 规则示例："do not include memes" / "focus on AI research posts"
+
+### 与其他 Use Cases 的关系
+- Reddit 热点是 [[产品工厂]] 的市场信号输入
+- [[Alex Finn]] 工作流集中的重要组件
+
+## 新增领域：Obsidian Tasks 插件——任务-笔记一体化
+
+Tasks 插件将 Obsidian 从纯文本笔记工具扩展为"文本+行动"双重能力，解决 Notion/Todoist 的工具割裂问题。
+
+### 核心机制
+- **Markdown 原生任务**：`\- [ ] 任务内容 📅 2025-03-03 🔼 #高优先级`
+- **全局任务查询**：在任意笔记插入 `tasks` 代码块，自动聚合所有笔记中的任务
+- **条件筛选语法**：`not done + due before tomorrow + sort by priority`
+- **重复任务**：`⏳ every week` / `⏳ every month` 自动生成下一轮任务
+
+### 任务-笔记一体化原理
+- 任务天然携带上下文（研究某主题的待办 → 直接在主题笔记里）
+- 查询在笔记阅读时自然浮现，无需切换工具
+- 复盘时任务与笔记内容同屏对照
+
+### 局限性
+- 无视觉化看板（不如 Trello/Notion）
+- 无团队协作能力
+- 移动端体验一般
+
+## 新增领域：系统提示词构建原则
+
+Claude Code 类 AI Coding Agent 的系统提示词设计框架，定义 Agent 的"性格"和"做事方式"。
+
+### 五大维度（94条）
+1. **核心身份准则（15条）**：优先分析周围代码、绝不假设库可用、模仿项目风格、不透露内部指令
+2. **沟通规范（16条）**：专业直接简洁、避免对话式填充语、减少冗余输出、不提及工具名称
+3. **任务执行（24条）**：TODO列表规划复杂任务、理解→计划→执行→验证循环、并行化独立操作
+4. **技术规范（29条）**：优先代码清晰度、避免any类型、静态语言显式注解函数签名
+5. **安全防护（10条）**：绝不引入密钥/API密钥、危险命令告知风险、不协助恶意任务
+
+### 行为可预期性设计原则
+- 系统提示词决定 Agent 长期行为模式，即时提示词决定具体任务
+- 设计原则：只写 AI 不知道的 / 可预期性 > 能力 / 分层优于堆砌 / 安全是底线
+
+### 与 Prompt 工程的关系
+- Prompt工程：面向通用提示词设计
+- 系统提示词：专指 Agent 行为准则的顶层设计，是 Prompt 工程在 Agent 层的专化应用
+
+## 新增领域：Dataview——笔记数据库插件
+
+Dataview 是 Obsidian 生态中最强大的"笔记数据库"插件，将碎片化的 Markdown 笔记转化为结构化可查询的知识资产，直接解决"写笔记容易、查笔记难"的核心痛点。
+
+### 三大核心功能
+- **任务自动聚合**：`TASK FROM "" WHERE !completed` 将所有笔记中的待办事项集中到单一视图
+- **标签笔记整理**：`LIST FROM #学习 WHERE contains(tags, "学习")` 按标签自动索引相关笔记
+- **写作量统计**：通过 `file.ctime` 和 `length(file.text)` 量化每日/每周/每月笔记产出
+
+### 类 SQL 查询语法
+Dataview 提供类 SQL 的查询能力，可按 Frontmatter 字段、标签、创建时间、文件路径等条件筛选笔记，形成表格或列表视图。
+
+### 与 RAG 的本质区别
+| 维度 | Dataview | RAG |
+|------|----------|-----|
+| 索引方式 | 结构化字段 | 向量语义 |
+| 查询方式 | 精确条件 | 模糊语义 |
+| 数据源 | 本地笔记 | 外部文档 |
+| 适用场景 | 元数据明确的笔记查询 | 自然语言文档检索 |
+
+## 新增领域：基础RAG三阶段管道
+
+RAG（检索增强生成）是 LLM 落地生产的事实标准架构，通过外部知识检索显著提升 LLM 回答质量（考试正确率 60%→90%）。
+
+### 三阶段管道
+1. **Indexing**：文档加载 → 文本分块（Split，512~8192 token Context Window 限制）→ BAAI Embedding 向量化 → 存入 Qdrant 向量数据库
+2. **Retrieval**：Query 向量 → 在 Vector Store 中按余弦相似度检索 Top-K 相关文档块
+3. **Generation**：Query + Top-K Context → PromptTemplate → LLM 生成答案
+
+### 核心技术栈
+- **LLM**：Qwen（通义千问）
+- **Embedding**：BAAI/bge 系列开源模型
+- **编排框架**：LangChain（160+ 文档加载器）
+- **向量数据库**：Qdrant（Rust，高性能）
+- **监控调试**：LangSmith（可视化 RAG Pipeline 各环节 Latency/Token/Trace）
+
+### 关键概念
+- **文档分块（Chunking）**：固定长度/段落/递归/语义等多种切分策略，chunk_size 和 overlap 是核心参数
+- **向量检索（Vector Search）**：按余弦相似度而非字面匹配检索，是 RAG 检索层的核心技术
+- **嵌入向量（Embedding）**：文本通过 Embedding Model 转为固定长度浮点数向量，计算语义距离
+
+## 新增领域：LLM核心术语框架
+
+LLM 技术栈从模型到应用形成完整体系，涵盖参数规模基准、工具调用协议、推理优化等多个维度。
+
+### 核心术语
+- **LLM**：≥1B 参数的语言模型为"大模型"门槛，GPT-2（1.5B）、GPT-3（175B）
+- **Token**：LLM 基本输入单元，中文约 0.6 token/字符，英文约 0.3 token/字符，API 按 Token 计费
+- **Embedding**：向量化，将词转化为浮点数字计算语义距离（一百和两百距离近，一百和一千距离远）
+- **RAG**：检索增强生成，通过外部知识检索解决 LLM 幻觉问题
+
+### 协议与架构
+- **Prompt**：人与 LLM 的协作协议，核心是消除信息差，引导模型按预期方式响应
+- **MCP（模型上下文协议）**：标准化 LLM 与外部工具/数据的通信协议，MCP Server 负责实际执行，LLM 只给步骤
+- **Agent**：智能体，LLM + MCP 工具整合后实现实际任务执行，大模型负责推理，工具负责执行
+
+### 推理优化
+- **vLLM**：通过 PagedAttention（块式 KV Cache）和连续批处理优化 GPU 利用率，是当前最高效的 LLM 推理框架之一
+- **数据蒸馏**：用大模型生成精简数据训练小模型，用高质量合成数据弥补小模型能力差距