最近時間分配好像好了一點,所以可以多點做自己的事。其中一件事就是完成zhrecode。

zhrecode是我在CSE時想出來的小工具,但是難度不少。雖然它的作為是替中文作內碼轉換,也就是說GNU iconv和recode都可以做到的東西,但是因為某個笨蛋想出來的漢字簡化計劃,導致iconv和recode都不能完美地作轉換,例如說,把某UTF8內碼的文章,全是簡體字,轉為只支援正體中文的BIG5內碼就有超多字辨認不到。

故此,我的zhrecode是要特別處理中文的內碼對換問題。但只限內碼對換而已,甚麼「公安」對「警察」的東西我不打算處理,反正要做的是保存內文原貌下的轉換。第一步是去Wikipedia偷師,找出一堆Phase list,去處理簡體轉正體時的多對一問題。

簡體內碼和正體內碼的對應表可在這裡找到: http://zh.wikipedia.org/wiki/Category:%E7%B6%AD%E5%9F%BA%E7%B9%81%E7%B0%A1%E8%BD%89%E6%8F%9B