2005年2月12日 星期六

游錫(方方土)堃?



無意間晃到yahoo奇摩的新聞,看到一個匪夷所思畫面,游錫(方方土),這是"堃"嗎?
這個問題好像很久以前的笑話,某某電視主播看到字幕出現"游錫方方土"就照著唸XD

[倚天]
沒想到都已經過了這麼久還是又出現這個問題,常常逛網頁的,而且是使用早期微軟系統的應該都不陌生,瀏覽器常常出現框框字,因為微軟的字集裡面沒有這個字,這又讓我想到很古早的"倚天中文"和"PE2",這些以前制定"標準字集的公司",還有近年的big5-2003計畫,這些都是"曾經"嘗試統一中文編碼問題的事件,後來呢?都不了了知。

[萬碼奔騰]
一直到微軟的win2000 winxp又多了一個Unicode 補完計畫,還有iso的iso標準字集,真是"萬碼奔騰",相信沒有寫網頁的也沒用win以外平臺的人不能體會這種混亂的局面,Linux Fedora 已經把預設的編碼設定為UTF-8,所有的語言檔也都是使用UTF-8來編寫,而不只是本地化(i10n)而已。

[現在的big5]
其實big5從來沒有標準,這也是另一個臺灣奇蹟,一個沒有標準的編碼可以用數十年,而政府的big5-2003計畫則打算編訂所有的字到big5的字集裡然後對應到Unicode裡,目前也沒有看到什麼動作,其實中文這麼多字又不是每個字都會用到,有些字也只是異體字 ,所以Unicode才又分UTF-8,UTF-16,UTF-32三個規格。

筆者個人覺得先把常用的字對應到UTF-8,先讓中文統一編碼,而UTF-32是圖書館所使用的,打算包含世界上所有的字,則慢慢來做就好了。

[參考]
http://wiki.debian.org.tw/index.php/ChineseInformationProcessing
http://www.iis.sinica.edu.tw/EVENT/Activity/iis20/i05.html
http://www.openfoundry.org/index.pl?section=zh_chinesefoundry