OCR 与校订进度

OCR 与校订进度

状态:公开 Wiki 草案 生成日期:2026-06-10

已完成

批量机器 OCR 已覆盖全部 868 张唯一图片。

层级 状态 说明
图片清册 完成 929 张来源图片整理为 868 张唯一图片
OCR 底稿 完成 每张图一个 OCR draft
OCR 索引 完成 可按关键词、文字量、来源组检索
上下文校订 开始 题页、自序、浪淘沙锚点已进入校订

机器 OCR 的实际质量

OCR 对油印本、目录页、标题页较有帮助;对手写古诗词页噪声较大。

因此项目采用两层策略:

  1. 先让全部图片可检索。
  2. 再对高价值页逐页校订。

高价值页包括:

  • 题页;
  • 序跋;
  • 目录;
  • WordPress 已整理过的诗词;
  • 能和 `liweinlp.com/8797` 对上的页;
  • 含有重要人物、地点、年代和创作说明的页。

当前可检索线索

索引已能命中:

  • 自序;
  • 浪淘沙;
  • 七律;
  • 李世德;
  • 詩文選;
  • 文史;
  • 安徽省。

这些命中是排队线索,不等于文字已经审定。

下一步

  1. 从 OCR 索引中抽出 `自序`、`浪淘沙`、`詩文選`、`七律` 页面。
  2. 与 WordPress 8797 的 25 个候选文本单元匹配。
  3. 对匹配成功的页面制作繁体校订文本。
  4. 把疑字、缺字和版本差异放入校订表。
  5. 逐步形成可发布的电子书章节。