李應繁詩文手稿整理 Wiki

李應繁詩文手稿整理 Wiki

状态:公开 Wiki 草案 生成日期:2026-06-10

简介

这是《李應繁詩文選》手稿、油印本和相关 WordPress 整理文字的持续整理 wiki。它记录从孤本照片、批量 OCR、上下文校订,到未来电子书和正式数字版 的完整过程。

原始公开入口是 William 博客上的 《李家大院》21:李應繁詩詞選

本 wiki 不把机器 OCR 当作最终文本。它的作用是公开记录来源、进度、校订 样本、版本问题和后续可复用的整理成果。

当前进度

项目 状态
Google Photos 导出 已导入并去重
唯一图片 868 张
重复图片来源 61 条保留为证据
机器 OCR 底稿 868 页已完成
WordPress 8797 文本单元 25 个候选单元已索引
上下文校订 已从题页、自序、浪淘沙锚点开始

闭环状态

这个项目现在已经形成第一版闭环:

Google Photos zip / WordPress 旧文
  -> 本地 sources 和 photo ledger
  -> 868 页机器 OCR draft
  -> OCR index / review queue
  -> 繁体校订样本
  -> WordPress wiki 页面
  -> 后续更新继续写回同一批 WP 页面

当前 WordPress 页面已经和本地 `wp-sync-state.json` 绑定。以后更新 `wiki/*.md` 后,自动同步会更新同一个 WordPress page,而不是重新创建新页。

阅读路径

  1. 先看来源地图,了解材料来自哪里。
  2. 再看OCR 与校订进度,区分机器底稿和已校订文本。
  3. 查看校订样本,了解实际成品形态。
  4. 复用指南判断哪些材料可以用于博客、电子书和综述。
  5. 版本与来源说明,理解 WordPress、照片、ScienceNet 冗余材料之间的关系。

重要原则

  • 最终整理文本保留繁体。
  • OCR 只是草稿,不是定稿。
  • WordPress 已发表整理文字作为黄金标准之一。
  • 手稿图片是最终证据。
  • 疑字、缺字和推断必须明确标出。
  • 本项目与《李老夫子遺墨》《李名杰回忆录》相互关联,但不合并语料。

相邻项目

站内可见入口

本 wiki 另有一篇普通博客入口贴,用于出现在 WordPress 文章流中: