Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

收錄歷史性轉換表 #510

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

danny0838
Copy link
Contributor

@danny0838 danny0838 commented Jul 14, 2020

實做 #502,主要還是用於處理「硷=>鹼」(#440)。

「复=>覆」應該可以考慮移到這個表。

@BYVoid
Copy link
Owner

BYVoid commented Jul 14, 2020

我不太理解這個表,能否解釋一下左右兩列分別是什麼,以及這個表可能的用途?

@danny0838
Copy link
Contributor Author

danny0838 commented Jul 14, 2020

就是像 #440 所提到的,比如以前的簡化字政策要求「鹼」轉成「硷」,因此現在可能存在一些早期生產、帶有「硷」字的簡體文本,若用現行的簡轉繁方案只會把「硷」轉成「礆」,而不是期望的「鹼」。此時可以在簡轉繁方案加掛這個轉換表達到目的。

@BYVoid
Copy link
Owner

BYVoid commented Jul 14, 2020

左列是現在已經不再用的「簡化字」?

看起來並不像的簡化。

@danny0838
Copy link
Contributor Author

danny0838 commented Jul 14, 2020

詳見 #502,有些應該是中國民間比較常用的異體字,「垵<=>埯」「鼗<=>鞀」「檾<=>苘」都是異體字,也都是 MS Word 和以前的 OpenCC 會做的轉換。

@BYVoid
Copy link
Owner

BYVoid commented Jul 15, 2020

這些轉換應該是OpenCC早期從起來不嚴謹的來源繼承得來,現在看來可以選擇完全不轉換。「硷」和其他的不太一樣。

@danny0838
Copy link
Contributor Author

danny0838 commented Jul 15, 2020

就是因為預設轉換方案不需要轉換,但特定情況可能有需求,所以才選擇另立一個詞典。

「硷」的另一個選擇就是直接加入正式的簡轉繁字典,之前 #440 就是這樣提案的。如果接受該做法,這邊可以刪掉「硷」。

「垵<=>埯」「鼗<=>鞀」「檾<=>苘」畢竟是反映不同地區的習慣用字不同,因此另一個選擇是加到地區慣用字或慣用詞詞典。不過我認為在預設的轉換方案加這幾個字還是會有爭議,所以建議用另立詞典的方式,讓需要的人可以參考、選擇性地使用。

@BYVoid
Copy link
Owner

BYVoid commented Jul 16, 2020

「垵<=>埯」「鼗<=>鞀」「檾<=>苘」這類轉換的標準過於模糊了,很難找到有此類轉換需求的使用者。我傾向於把它們加入異體字規範化的範疇中。

關於異體字規範化,我之前提到過好幾次,目前想法還不夠成熟,但是基本的思路是明確定義OpenCC的用字標準。目前的STCharacters.txt右邊一列的「OpenCC繁體」,如果排除掉一對多的情況,就是OpenCC的用字標準。

類似的,爲了更好地實現非標準化的「繁體」轉簡體或者其他地區標準繁體,需要定義一個規範轉換詞典,即先把各種異體字標準化,再進行詞的轉換。

@danny0838
Copy link
Contributor Author

「垵<=>埯」「鼗<=>鞀」「檾<=>苘」這類轉換的標準過於模糊了,很難找到有此類轉換需求的使用者。我傾向於把它們加入異體字規範化的範疇中。

這有點像前面提到的「姊=>姐」,為了更符合當地用字習慣,確實會有這樣的需求。

而即使先不論「垵<=>埯」「鼗<=>鞀」「檾<=>苘」之類,「硷=>鹼」你打算怎麼處理?「硷」很明確是簡化字,並不適合作為異體字規範吧?

- 以前的簡化字政策或一些簡繁轉換軟體往往會過度轉換。可搭配此詞典還原被過度轉換的文本。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants