Skip to content

OpenCC 繁簡轉換之大陸古籍標準 -《古籍印刷通用字規範字形表》

License

Notifications You must be signed in to change notification settings

forFudan/GujiCC

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

古籍通規繁體標準

介紹

中華人民共和國國家標準《古籍印刷通用字規範字形表》(GB/Z 40637-2021)中提及:

本文件适用于1911年以前历代传世古籍的印刷与出版,也适用于现代书刊的繁体版印刷。

故而本項目以《古籍印刷通用字規範字形表》和《辭源》採字爲標準,定名古籍通規繁體標準,基於 OpenCC 項目 製作繁簡轉換對應表,適用於 OpenCC 引擎,配置名爲 s2g.json。

同時,注意到本標準中規定的字形和 CJK 中 G 源(大陸提供字形)存在差異。在使用大陸字體時,會出現部分部首不一致的現象,如吳誤 碌彔。因此,《古籍》字形的使用需要配合特殊字體。遺憾的是,此類字體未有問世。因此上,我基於《通用規範漢字表》、上海古籍出版社二〇一九年第二版《文選》,參考《古籍印刷通用字規範字形表》,以通規爲主,以古籍爲輔,生成調和大陸繁體標準,部首不一致的情況。配置名爲 s2c.json。

關於「古籍通規繁體標準」

本標準的出臺有利於解決繁體字出版時的標準混亂。無論它是否完美,有一個大陸標準,好過没有標準或多標準混合使用。但本表遠非完美,甚至存在不少問題,需要不斷修訂。

以下逐條討論,排名不分先後:

  1. 本表只是定義古籍漢字的字形,並非規定繁簡漢字的對應關係。有時多個異體字都在表中,可以自由選擇哪一個最为簡化字的映射字。例如:都在表中,並未強制使用作爲的繁體。我們可基於意義分離原則,除箇中外,都使用
  2. 本表對部分異寫字的字形作出了選擇,但大體上同《辭源》選字相同。有討論中説,本表收,《辭源》收,兩者不一致,我並不同意。理由是在《辭源》中都有收錄字頭,且在注文中,也有用不用的情况,例如軍都冷泉六和塔胊山等詞條。同理,見
  3. 本表中部分字形或存在不統一,如左,在及相關字中作左。
  4. 本表存在收字不全的問題。用本表收錄的14250個漢字,竟無法寫出本表的名字——《古籍印刷通用字規範字形表》。這是因爲不少常用字未被收錄。已發現的就有蹦擼菇窝崗樑僱划剪古叼呆啪嘀嚐岩等,這一點不影響繁簡轉換。

以下列出本標準對部分部首或部件字形的選擇,排名不分先後:

古籍繁體 通規繁體 港臺繁體 字例 備註
〔勹又〕 沒歿
上方不作「文」
〔即左〕 〔即左〕 卽旣 「鄉」及相關字除外
「扁」及相關字除外
𣏂 刹弑殺 少一「點」
「所」除外
禿
誤娱

以下列出本標準對部分單字的選擇,排名不分先後:

古籍繁體 通規繁體 港臺繁體 備註
厦〔廈〕
艷〔豓豔〕
群〔羣〕
峰〔峯〕
猫〔貓〕
虱〔蝨〕
謚〔諡〕
够〔夠〕
撑〔撐〕
咏〔詠〕
下爲「大」不是犬
莅〔涖蒞〕
耻〔恥〕
中間是「九」不是「尢」
脉〔脈䘑衇〕
床〔牀〕
况〔況〕 《辭源》慣用字爲「況」
凉〔涼〕

以下異體字《古籍通規》兼收,本標準取字如下,排名不分先後:

古籍/調和繁體 《辭源》慣用字 通規繁體 其他繁體書籍慣用字 原因
考〔攷〕
個〔箇〕
核〔覈〕 覈 核 分離義象,「審覈」
針〔鍼〕
注 >> 註 注〔註〕 分離義象
擡 > 抬
濕 > 溼 濕〔溼〕
麵〔麪〕 麵(臺) 麪(港)

關於「調和大陸繁體標準」

「調和大陸繁體標準」主要依《通規》,並以上海古籍出版社二〇一九年第二版《文選》的實際用字爲基準。

以下列出本標準不取古籍字形,而取通規的部首或部件字形,排名不分先後:

調和繁體 古籍繁體 通規繁體 港臺繁體 字例 備註
朵〔朶〕 部分字無獨立碼位
侣宫營閭 「營閭」等字無獨立碼位
〔即左〕 〔即左〕 〔即左〕 卽旣 「鄉」不一致
「節」無獨立碼位
綠淥剝錄祿 「碌箓」等字無獨立碼位
誤娱 「誤」等字無獨立碼位
廣璜 「廣璜」等字無獨立碼位
〔温右〕 〔溫右〕 〔溫右〕 温愠

以下列出本標準不取古籍字形,而取通規的單字,排名不分先後:

調和繁體 古籍繁體 通規繁體 港臺繁體 備註
厦〔廈〕 《辭源》慣用字爲「廈」
「厂」字頭不一致
艷〔豓豔〕 《辭源》慣用字爲「艷」
床〔牀〕 古籍通規未收「床」字

關於簡化漢字到傳統漢字轉換

《古籍印刷通用字規範字形表》只規範字形,不規範用字。這點如《通用規範漢字表》只規範字形,但用字參照《新華字典》或《現代漢語詞典》。因此,在繁簡轉換中,需要有一選取優先字的基準。《辭源》第三版體例中言及:「字頭與行文的字形經過整理,一律採用古籍印刷通用字規範字形。」因此,可以將《辭源》中注釋文字的實際用字作爲取字的參考。

簡化漢字到傳統漢字的轉換,可以大致遵循以下的取字原則:

  • 如果兩個字在《辭源》注釋文字實際用字中分領不同含義,則用字分離。如同取修理肉脩
  • 異寫字,只選取在本表中出現的。如取不取,取不取,取不取,取不取𥳑
  • 異寫字,如有兩個及以上同時出現在本表中,優先取《通用規範漢字表》中的字形,再取《辭源》注釋文字實際用字,如取不取
  • 本表中不存在的常用字,加入本表。如
  • 本表中不存在的字,如在《辭源》注釋文字實際用字中分領不同含義,則依舊進行分離。如同不在本表中,但在詞條開口跳的注釋中,依舊用了唸白一詞。故而加入本表,從而分離意義。

About

OpenCC 繁簡轉換之大陸古籍標準 -《古籍印刷通用字規範字形表》

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published