最近找 wiki api 抓資料,當然大家都知道,這是「大家的百科全書」,當然就會不只一個人來編寫。
也因此中文條目的部份也會有對岸的朋友一同編寫,使內容更臻完美 (在此順便賀一下, wikipedia 的中文條目破 40 萬了~ )
但在抓資料並且分析的時候就會有個小缺陷,也就是抓回來的資料往往可能是简中繁中交雜的,在比較上可能會遇到麻煩……
所以這兩天在找有沒有簡中轉繁中的套件?
當然有,但好像大多是瀏覽器的 plug-in 的類型(像是同文堂之類的),跑程式可能就不大能用?
於是今天 google 了一下大家愛用的「新同文堂」,開心,因為它提供開發工具包的下載~
網址:http://www.openfoundry.org/of/projects/333/download
下載後照著和藹可親的 readme.txt 走就可以得到 s2t_phrase.js 這個檔,裡面都是片語的简繁對應(像「干」這種一對多繁體字的);
而選「製做單字轉換表 s2t.js」則會得到單一中文字的简繁對應(像「简」->「簡」這類一對一的),
基本上裡面就是大量的简繁對應表,由 javascript 的陣列構成,
而我們只要把這個陣列 copy 下來到我們要用的語言(像 php 這種可以直接以字串當作陣列 index 的),
再稍作修改就可以直接拿來用了。
不過因為其內容都是用 unicode 表示的 (像\u00af 這樣的東東),所以可能要自已轉碼一下。
而 php 剛好有個現成方便的函數:json_encode
實驗了一下,結果是OK的~
php code:
輸出結果:
留言列表