OCR 與校訂進度

OCR 與校訂進度

狀態:公開 Wiki 草案 生成日期:2026-06-12

已完成

批量機器 OCR 已覆蓋全部 868 張唯一圖片。

層級 狀態 說明
圖片清冊 完成 929 張來源圖片整理為 868 張唯一圖片
OCR 底稿 完成 每張圖一個 OCR draft
OCR 粗稿全集 v0 完成 868 頁合併為全集粗稿,並按 100 張一組切成 9 個分卷
全集審閱版 v0 完成 868 頁已整理為可統一審閱格式,含校正欄、備註欄、分冊與追蹤表
瀏覽器圖文對照審閱器 v0 完成 打開 HTML 後選擇 zip,即可左圖右文審閱並匯出修訂
OCR 線索索引 v0 完成 471 頁命中題名、詞牌、人名、年代、地點或時事線索
檔案包 v0 完成 粗稿全集、分卷、頁級索引、線索索引和校驗清單已收束為一個本地交付包
高價值頁隊列 v0 完成 從 471 頁線索中粗排出候選頁,供每批 10 頁粗校
粗校批次 001 完成 高價值頁前 10 頁已粗校收束;0009 已併入 William 人工校正
粗校批次 002 完成 油印本高置信頁 10 頁已粗校,形成目錄、作品樣本、年譜線索
粗校批次 003 完成 油印本 0648-0681 已粗校,形成時事作品與家族年譜線索
OCR 索引 完成 可按關鍵詞、文字量、來源組檢索
上下文校訂 開始 題頁、自序、浪淘沙錨點、憶江南正文候選已進入校訂
校訂隊列 完成 v1 已建立 P0/P1/P2/P3 review queue
目錄索引 完成 v1 `0008`、`0010`、`0298` 已整理為 94 條結構化記錄;`0334` 已反證並修正 `0298` entries 23-24 的詞牌關係
疑字確認 進行 v1 已建立 14 條候選讀法;`0009` 四處疑點已由 William 於 2026-06-12 確認

機器 OCR 的實際質量

OCR 對油印本、目錄頁、標題頁較有幫助;對手寫古詩詞頁噪聲較大。

因此項目採用兩層策略:

  1. 先讓全部圖片可檢索。
  2. 再對高價值頁逐頁校訂。

高價值頁包括:

  • 題頁;
  • 序跋;
  • 目錄;
  • WordPress 已整理過的詩詞;
  • 能和 `liweinlp.com/8797` 對上的頁;
  • 含有重要人物、地點、年代和創作說明的頁。

當前可檢索線索

索引已能命中:

  • 自序;
  • 浪淘沙;
  • 七律;
  • 李世德;
  • 詩文選;
  • 文史;
  • 安徽省。
  • 大風低溫有感;
  • 重孫小三闋;
  • 憶江南。

這些命中是排隊線索,不等於文字已經審定。

第一批校訂隊列

priority 圖像 用途 狀態
P0 `0001`-`0004` 題贈、題頁、自序、浪淘沙錨點 已有上下文校訂草稿
P1 `0008`、`0010`、`0298` 目錄與詞牌索引 已轉為 contents-index v1
P1 `0009` 自序續頁 pages 4-5 已有上下文校訂草稿,待二校
P1 `0334` `大風低溫有感 / 西江月` 與 `重孫小三闋 / 憶江南` 正文 已建立照片校訂樣本;已排除為 WP 8797 `調寄《憶江南》`
P1 `0371`、`0440` WP 8797 候選匹配 待原圖核驗
P1 `0609` 《浪淘沙・親友不至》 已形成單首閉環樣本並發布到校訂樣本頁
P2 `0297`、`0338` 李世德相關線索 待人物索引

本地完整隊列: `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/review-queue-v1.md`

本地目錄索引: `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/contents-index-v1.md`

本地疑字確認隊列: `InterestVault/interest/Sources/li-yingfan-manuscript/ocr-correction/review/uncertain-readings-queue-v1.md`

目錄索引 v1

已結構化三個目錄頁:

圖像 內容 作用
`0008-IMG_4427.jpg` 詩 entries 48-85 建立詠史、詠事七絕序列
`0010-IMG_4429.jpg` 詩 entries 123-141;詞 entries 1-13 建立《浪淘沙》page 95-103 錨點
`0298-IMG_4464.jpg` 油印本詞 entries 1-24 建立 `憶江南` cluster 與 WP 8797 線索
`0334-IMG_4500.jpg` 油印本詞正文 確認 entry 23 為 `大風低溫有感 / 西江月`,entry 24 為 `重孫小三闋 / 憶江南`

這一步的作用是避免逐張盲查:後續可以按頁碼、題名、詞牌反查正文照片。

最新校訂突破

`0298` 目錄原先只提示 `憶江南` cluster,不能確定正文位置。沿相鄰油印本照片追蹤後,`0334-IMG_4500.jpg` 已找到正文頁:

  • `大風低溫有感`,詞牌 `西江月`;
  • `重孫小三闋`,詞牌 `憶江南`。

這說明早先低置信索引中「entry 23 = 憶江南」的關係需要修正:`憶江南` 應屬 entry 24。`重孫小三闋` 三闋正文已進入照片校訂樣本。

2026-06-13 更新:`0334` 聚焦圖已二次覆核,並作為照片驅動的新樣本加入 「校訂樣本」頁。這個增量不依賴 WP 已整理文字,直接來自照片語料。

同時,這一頁已和 WP 8797「調寄《憶江南》」逐行核對並排除:WP 8797 的正文開頭是「詩歌詠,背景是農村」,而 `0334` 開頭是「重孫小」。另有 `0827-IMG_4238.jpg` 雖命中「1984年12月 / 石沖」一類落款線索,原圖顯示為「山居雜詠七律三百首」;`0783-IMG_4136.jpg` 雖有 OCR 噪聲命中 `忆江` / `三中`,視覺核查亦非該篇。三者均已排除。下一步要用 `詩歌詠`、`背景是農村`、`兩戶經營都富裕` 等正文線索繼續找真正文照片。

下一步

  1. 已回寫 William 對 `U-0009-001` 到 `U-0009-004` 的確認。
  2. `0609-IMG_4823.jpg` 已形成《浪淘沙・親友不至》單首閉環樣本。
  3. `0334-IMG_4500.jpg` 已形成照片驅動的詞頁樣本。
  4. 繼續尋找 WP 8797「調寄《憶江南》」的真正文照片;`0334`、`0827` 均已排除。
  5. 匹配成功後,逐步形成可發布的電子書章節。