-
-
Notifications
You must be signed in to change notification settings - Fork 983
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
收錄歷史性轉換表 #510
base: master
Are you sure you want to change the base?
The head ref may contain hidden characters: "\u589E\u52A0\u6B77\u53F2\u6027\u8F49\u63DB\u8868"
收錄歷史性轉換表 #510
Conversation
我不太理解這個表,能否解釋一下左右兩列分別是什麼,以及這個表可能的用途? |
就是像 #440 所提到的,比如以前的簡化字政策要求「鹼」轉成「硷」,因此現在可能存在一些早期生產、帶有「硷」字的簡體文本,若用現行的簡轉繁方案只會把「硷」轉成「礆」,而不是期望的「鹼」。此時可以在簡轉繁方案加掛這個轉換表達到目的。 |
左列是現在已經不再用的「簡化字」?
|
詳見 #502,有些應該是中國民間比較常用的異體字,「垵<=>埯」「鼗<=>鞀」「檾<=>苘」都是異體字,也都是 MS Word 和以前的 OpenCC 會做的轉換。 |
這些轉換應該是OpenCC早期從起來不嚴謹的來源繼承得來,現在看來可以選擇完全不轉換。「硷」和其他的不太一樣。 |
就是因為預設轉換方案不需要轉換,但特定情況可能有需求,所以才選擇另立一個詞典。 「硷」的另一個選擇就是直接加入正式的簡轉繁字典,之前 #440 就是這樣提案的。如果接受該做法,這邊可以刪掉「硷」。 「垵<=>埯」「鼗<=>鞀」「檾<=>苘」畢竟是反映不同地區的習慣用字不同,因此另一個選擇是加到地區慣用字或慣用詞詞典。不過我認為在預設的轉換方案加這幾個字還是會有爭議,所以建議用另立詞典的方式,讓需要的人可以參考、選擇性地使用。 |
「垵<=>埯」「鼗<=>鞀」「檾<=>苘」這類轉換的標準過於模糊了,很難找到有此類轉換需求的使用者。我傾向於把它們加入異體字規範化的範疇中。 關於異體字規範化,我之前提到過好幾次,目前想法還不夠成熟,但是基本的思路是明確定義OpenCC的用字標準。目前的STCharacters.txt右邊一列的「OpenCC繁體」,如果排除掉一對多的情況,就是OpenCC的用字標準。 類似的,爲了更好地實現非標準化的「繁體」轉簡體或者其他地區標準繁體,需要定義一個規範轉換詞典,即先把各種異體字標準化,再進行詞的轉換。 |
這有點像前面提到的「姊=>姐」,為了更符合當地用字習慣,確實會有這樣的需求。 而即使先不論「垵<=>埯」「鼗<=>鞀」「檾<=>苘」之類,「硷=>鹼」你打算怎麼處理?「硷」很明確是簡化字,並不適合作為異體字規範吧? |
實做 #502,主要還是用於處理「硷=>鹼」(#440)。
「复=>覆」應該可以考慮移到這個表。