3m read
书籍转学习笔记工作流程:从 PDF/EPUB 到 Obsidian
workflowobsidianlearningocr
从 PDF/EPUB 书籍生成 Obsidian 学习笔记的标准化流程。基于处理三本 Excel 书籍(PDF 文字版 ×1、PDF 扫描件 ×1、EPUB ×1)的实战总结。
流程总览
text发现书籍文件 ↓ 判断格式 → PDF文字版 / PDF扫描件 / EPUB ↓ 提取目录与内容(策略因格式而异) ↓ Web 搜索补充(确认章节、补充细节) ↓ 生成 Markdown 学习笔记 ↓ 质量审查 → 修复语法/OCR/公式错误 ↓ 归档到 学习笔记/
三种格式的处理策略
PDF 文字版(pdftotext 能提取中文)
hljs bashpdftotext "原书.pdf" - | head -500
准确率 95%+、不需要 OCR。注意英文半角字符可能被转成全角。
PDF 扫描件(纯图片)
pdftotext 输出只有 \f 换页符时,转图片后用 Apple OCR 逐页识别。
hljs bashpdftoppm -f 1 -l 20 -r 200 -jpeg "原书.pdf" /tmp/pages
# 逐页 OCR
OCR 准确率 80-90%,需 Web 交叉验证。
EPUB 电子书
hljs bashmkdir /tmp/epub && cd /tmp/epub
unzip -o -q "原书.epub"
# 目录:OEBPS/toc.ncx 的 navPoint 节点
# 章节:OEBPS/text00XXX.html 去标签
优点:目录结构标准化、文字准确率 100%。对话体书籍需归纳重组为要点形式。
笔记生成规范
Frontmatter
hljs yaml---
title: 《书名》学习笔记
tags:
- 主题标签
- 学习笔记
date: YYYY-MM-DD
---
书籍信息块
hljs markdown> **书名**:《XXX》
> **作者**:XXX
> **提取方式**:PDF pdftotext / Apple OCR / EPUB 目录提取 + Web 补充
笔记结构
text## 全书概览 - 总章数 + 分块说明 - 总览表格 ## 第X章 标题 ### 核心知识点 ### 实战技巧 / 注意事项 ## 📋 速查表 ## 📝 学习路线建议
编写原则
| 原则 | 做法 |
|---|---|
| 表格优先 | 对比类、参数类、清单类内容用表格 |
| 代码在围栏块 | 公式、代码段放 ``` 块中 |
| 归纳重组 | 对话体 → 要点列表 |
| 标注重点 | ⭐ 标记高频/核心知识点 |
| 保持谦虚 | 标注提取方式,鼓励对照原书修正 |
常见坑及解决
Dataview 插件与 Excel 公式冲突
=SUM(A1:A10) 被 Dataview 误解析为 DQL 查询。方案:在 Dataview 设置中排除 学习笔记/ 文件夹。
扫描件 OCR 误差
形近字混淆("列"→"到")、标点丢失、多栏错乱。缓解:只 OCR 目录页 + Web 搜索补充 + 标注"OCR 精度有限"。
EPUB 对话体处理
对话体不适合照搬。策略:提取目录确定章节边界 → 每章概括核心 → 重组为知识要点。
基于 2026-06-02 处理三本 Excel 书籍的实战总结。