OCR 與校訂進度
狀態:公開 Wiki 草案 生成日期:2026-06-12
已完成
批量機器 OCR 已覆蓋全部 868 張唯一圖片。
| 層級 | 狀態 | 說明 |
|---|---|---|
| 圖片清冊 | 完成 | 929 張來源圖片整理為 868 張唯一圖片 |
| OCR 底稿 | 完成 | 每張圖一個 OCR draft |
| OCR 粗稿全集 v0 | 完成 | 868 頁合併為全集粗稿,並按 100 張一組切成 9 個分卷 |
| 全集審閱版 v0 | 完成 | 868 頁已整理為可統一審閱格式,含校正欄、備註欄、分冊與追蹤表 |
| 瀏覽器圖文對照審閱器 v0 | 完成 | 打開 HTML 後選擇 zip,即可左圖右文審閱並匯出修訂 |
| OCR 線索索引 v0 | 完成 | 471 頁命中題名、詞牌、人名、年代、地點或時事線索 |
| 檔案包 v0 | 完成 | 粗稿全集、分卷、頁級索引、線索索引和校驗清單已收束為一個本地交付包 |
| 高價值頁隊列 v0 | 完成 | 從 471 頁線索中粗排出候選頁,供每批 10 頁粗校 |
| 粗校批次 001 | 完成 | 高價值頁前 10 頁已粗校收束;0009 已併入 William 人工校正 |
| 粗校批次 002 | 完成 | 油印本高置信頁 10 頁已粗校,形成目錄、作品樣本、年譜線索 |
| 粗校批次 003 | 完成 | 油印本 0648-0681 已粗校,形成時事作品與家族年譜線索 |
| OCR 索引 | 完成 | 可按關鍵詞、文字量、來源組檢索 |
| 上下文校訂 | 開始 | 題頁、自序、浪淘沙錨點、憶江南正文候選已進入校訂 |
| 校訂隊列 | 完成 v1 | 已建立 P0/P1/P2/P3 review queue |
| 目錄索引 | 完成 v1 | `0008`、`0010`、`0298` 已整理為 94 條結構化記錄;`0334` 已反證並修正 `0298` entries 23-24 的詞牌關係 |
| 疑字確認 | 進行 v1 | 已建立 14 條候選讀法;`0009` 四處疑點已由 William 於 2026-06-12 確認 |
機器 OCR 的實際質量
OCR 對油印本、目錄頁、標題頁較有幫助;對手寫古詩詞頁噪聲較大。
因此項目採用兩層策略:
- 先讓全部圖片可檢索。
- 再對高價值頁逐頁校訂。
高價值頁包括:
- 題頁;
- 序跋;
- 目錄;
- WordPress 已整理過的詩詞;
- 能和 `liweinlp.com/8797` 對上的頁;
- 含有重要人物、地點、年代和創作說明的頁。
當前可檢索線索
索引已能命中:
- 自序;
- 浪淘沙;
- 七律;
- 李世德;
- 詩文選;
- 文史;
- 安徽省。
- 大風低溫有感;
- 重孫小三闋;
- 憶江南。
這些命中是排隊線索,不等於文字已經審定。
第一批校訂隊列
| priority | 圖像 | 用途 | 狀態 |
|---|---|---|---|
| P0 | `0001`-`0004` | 題贈、題頁、自序、浪淘沙錨點 | 已有上下文校訂草稿 |
| P1 | `0008`、`0010`、`0298` | 目錄與詞牌索引 | 已轉為 contents-index v1 |
| P1 | `0009` | 自序續頁 pages 4-5 | 已有上下文校訂草稿,待二校 |
| P1 | `0334` | `大風低溫有感 / 西江月` 與 `重孫小三闋 / 憶江南` 正文 | 已建立照片校訂樣本;已排除為 WP 8797 `調寄《憶江南》` |
| P1 | `0371`、`0440` | WP 8797 候選匹配 | 待原圖核驗 |
| P1 | `0609` | 《浪淘沙・親友不至》 | 已形成單首閉環樣本並發布到校訂樣本頁 |
| P2 | `0297`、`0338` | 李世德相關線索 | 待人物索引 |
本地完整隊列: `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/review-queue-v1.md`
本地目錄索引: `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/contents-index-v1.md`
本地疑字確認隊列: `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/uncertain-readings-queue-v1.md`
目錄索引 v1
已結構化三個目錄頁:
| 圖像 | 內容 | 作用 |
|---|---|---|
| `0008-IMG_4427.jpg` | 詩 entries 48-85 | 建立詠史、詠事七絕序列 |
| `0010-IMG_4429.jpg` | 詩 entries 123-141;詞 entries 1-13 | 建立《浪淘沙》page 95-103 錨點 |
| `0298-IMG_4464.jpg` | 油印本詞 entries 1-24 | 建立 `憶江南` cluster 與 WP 8797 線索 |
| `0334-IMG_4500.jpg` | 油印本詞正文 | 確認 entry 23 為 `大風低溫有感 / 西江月`,entry 24 為 `重孫小三闋 / 憶江南` |
這一步的作用是避免逐張盲查:後續可以按頁碼、題名、詞牌反查正文照片。
最新校訂突破
`0298` 目錄原先只提示 `憶江南` cluster,不能確定正文位置。沿相鄰油印本照片追蹤後,`0334-IMG_4500.jpg` 已找到正文頁:
- `大風低溫有感`,詞牌 `西江月`;
- `重孫小三闋`,詞牌 `憶江南`。
這說明早先低置信索引中「entry 23 = 憶江南」的關係需要修正:`憶江南` 應屬 entry 24。`重孫小三闋` 三闋正文已進入照片校訂樣本。
2026-06-13 更新:`0334` 聚焦圖已二次覆核,並作為照片驅動的新樣本加入 「校訂樣本」頁。這個增量不依賴 WP 已整理文字,直接來自照片語料。
同時,這一頁已和 WP 8797「調寄《憶江南》」逐行核對並排除:WP 8797 的正文開頭是「詩歌詠,背景是農村」,而 `0334` 開頭是「重孫小」。另有 `0827-IMG_4238.jpg` 雖命中「1984年12月 / 石沖」一類落款線索,原圖顯示為「山居雜詠七律三百首」;`0783-IMG_4136.jpg` 雖有 OCR 噪聲命中 `忆江` / `三中`,視覺核查亦非該篇。三者均已排除。下一步要用 `詩歌詠`、`背景是農村`、`兩戶經營都富裕` 等正文線索繼續找真正文照片。
下一步
- 已回寫 William 對 `U-0009-001` 到 `U-0009-004` 的確認。
- `0609-IMG_4823.jpg` 已形成《浪淘沙・親友不至》單首閉環樣本。
- `0334-IMG_4500.jpg` 已形成照片驅動的詞頁樣本。
- 繼續尋找 WP 8797「調寄《憶江南》」的真正文照片;`0334`、`0827` 均已排除。
- 匹配成功後,逐步形成可發布的電子書章節。