OCR 与校订进度
状态:公开 Wiki 草案 生成日期:2026-06-10
已完成
批量机器 OCR 已覆盖全部 868 张唯一图片。
| 层级 | 状态 | 说明 |
|---|---|---|
| 图片清册 | 完成 | 929 张来源图片整理为 868 张唯一图片 |
| OCR 底稿 | 完成 | 每张图一个 OCR draft |
| OCR 索引 | 完成 | 可按关键词、文字量、来源组检索 |
| 上下文校订 | 开始 | 题页、自序、浪淘沙锚点已进入校订 |
机器 OCR 的实际质量
OCR 对油印本、目录页、标题页较有帮助;对手写古诗词页噪声较大。
因此项目采用两层策略:
- 先让全部图片可检索。
- 再对高价值页逐页校订。
高价值页包括:
- 题页;
- 序跋;
- 目录;
- WordPress 已整理过的诗词;
- 能和 `liweinlp.com/8797` 对上的页;
- 含有重要人物、地点、年代和创作说明的页。
当前可检索线索
索引已能命中:
- 自序;
- 浪淘沙;
- 七律;
- 李世德;
- 詩文選;
- 文史;
- 安徽省。
这些命中是排队线索,不等于文字已经审定。
下一步
- 从 OCR 索引中抽出 `自序`、`浪淘沙`、`詩文選`、`七律` 页面。
- 与 WordPress 8797 的 25 个候选文本单元匹配。
- 对匹配成功的页面制作繁体校订文本。
- 把疑字、缺字和版本差异放入校订表。
- 逐步形成可发布的电子书章节。