李應繁詩文手稿整理 Wiki
狀態:公開 Wiki 草案 生成日期:2026-06-10
簡介
這是《李應繁詩文選》手稿、油印本和少量已公開參考文字的持續整理 wiki。它記錄從孤本照片、批量 OCR、上下文校訂,到未來電子書和正式數字版 的完整過程。
原始公開入口是 William 博客上的 《李家大院》21:李應繁詩詞選。
本 wiki 不把機器 OCR 當作最終文本。它的作用是公開記錄來源、進度、校訂 樣本、版本問題和後續可複用的整理成果。
當前進度
| 項目 | 狀態 |
|---|---|
| Google Photos 導出 | 已導入並去重 |
| 唯一圖片 | 868 張 |
| 重複圖片來源 | 61 條保留為證據 |
| 機器 OCR 底稿 | 868 頁已完成 |
| OCR 粗稿全集 v0 | 868 頁已合併,9 個分卷 |
| OCR 線索索引 v0 | 471 頁命中題名、詞牌、人名、年代等線索 |
| 檔案包 v0 | 已生成,可作備份、檢索和電子書前身 |
| WordPress 8797 文本單元 | 25 個候選單元已索引 |
| 上下文校訂 | 已從題頁、自序、浪淘沙錨點開始 |
| 第一批校訂隊列 | review queue v1 已建立 |
| 目錄索引 | contents-index v1:94 條結構化記錄 |
閉環狀態
這個項目現在已經形成第一版閉環:
Google Photos zip / WordPress 舊文
-> 本地 sources 和 photo ledger
-> 868 頁機器 OCR draft
-> OCR 粗稿全集 v0
-> 檔案包 v0
-> OCR index / review queue / contents index
-> 繁體校訂樣本
-> WordPress wiki 頁面
-> 後續更新繼續寫回同一批 WP 頁面
當前 WordPress 頁面已經和本地 `wp-sync-state.json` 綁定。以後更新 `wiki/*.md` 後,自動同步會更新同一個 WordPress page,而不是重新創建新頁。
閱讀路徑
- 先看來源地圖,了解材料來自哪裡。
- 看OCR 粗稿全集 v0,先取得全集可搜索底稿。
- 再看OCR 與校訂進度,區分機器底稿和已校訂文本。
- 查看校訂樣本,了解實際成品形態。
- 用複用指南判斷哪些材料可以用於博客、電子書和綜述。
- 查版本與來源說明,理解 WordPress、照片、ScienceNet 冗餘材料之間的關係。
重要原則
- 最終整理文本保留繁體。
- OCR 只是草稿,不是定稿。
- 手稿圖片是主體來源和最終證據。
- WordPress 已發表整理文字只是少量參考錨點,不代表全書已整理完成。
- 疑字、缺字和推斷必須明確標出。
- 本項目與《李老夫子遺墨》《李名杰回憶錄》相互關聯,但不合併語料。
相鄰項目
站內可見入口
本 wiki 另有一篇普通博客入口貼,用於出現在 WordPress 文章流中: