李應繁詩文手稿整理 Wiki
状态:公开 Wiki 草案 生成日期:2026-06-10
简介
这是《李應繁詩文選》手稿、油印本和相关 WordPress 整理文字的持续整理 wiki。它记录从孤本照片、批量 OCR、上下文校订,到未来电子书和正式数字版 的完整过程。
原始公开入口是 William 博客上的 《李家大院》21:李應繁詩詞選。
本 wiki 不把机器 OCR 当作最终文本。它的作用是公开记录来源、进度、校订 样本、版本问题和后续可复用的整理成果。
当前进度
| 项目 | 状态 |
|---|---|
| Google Photos 导出 | 已导入并去重 |
| 唯一图片 | 868 张 |
| 重复图片来源 | 61 条保留为证据 |
| 机器 OCR 底稿 | 868 页已完成 |
| WordPress 8797 文本单元 | 25 个候选单元已索引 |
| 上下文校订 | 已从题页、自序、浪淘沙锚点开始 |
闭环状态
这个项目现在已经形成第一版闭环:
Google Photos zip / WordPress 旧文
-> 本地 sources 和 photo ledger
-> 868 页机器 OCR draft
-> OCR index / review queue
-> 繁体校订样本
-> WordPress wiki 页面
-> 后续更新继续写回同一批 WP 页面
当前 WordPress 页面已经和本地 `wp-sync-state.json` 绑定。以后更新 `wiki/*.md` 后,自动同步会更新同一个 WordPress page,而不是重新创建新页。
阅读路径
- 先看来源地图,了解材料来自哪里。
- 再看OCR 与校订进度,区分机器底稿和已校订文本。
- 查看校订样本,了解实际成品形态。
- 用复用指南判断哪些材料可以用于博客、电子书和综述。
- 查版本与来源说明,理解 WordPress、照片、ScienceNet 冗余材料之间的关系。
重要原则
- 最终整理文本保留繁体。
- OCR 只是草稿,不是定稿。
- WordPress 已发表整理文字作为黄金标准之一。
- 手稿图片是最终证据。
- 疑字、缺字和推断必须明确标出。
- 本项目与《李老夫子遺墨》《李名杰回忆录》相互关联,但不合并语料。
相邻项目
站内可见入口
本 wiki 另有一篇普通博客入口贴,用于出现在 WordPress 文章流中: