最近找 wiki api 抓資料,當然大家都知道,這是「大家的百科全書」,當然就會不只一個人來編寫。

也因此中文條目的部份也會有對岸的朋友一同編寫,使內容更臻完美 (在此順便賀一下, wikipedia 的中文條目破 40 萬了~ )

但在抓資料並且分析的時候就會有個小缺陷,也就是抓回來的資料往往可能是简中繁中交雜的,在比較上可能會遇到麻煩……

所以這兩天在找有沒有簡中轉繁中的套件?

當然有,但好像大多是瀏覽器的 plug-in 的類型(像是同文堂之類的),跑程式可能就不大能用?

於是今天 google 了一下大家愛用的「新同文堂」,開心,因為它提供開發工具包的下載~

網址:http://www.openfoundry.org/of/projects/333/download

 

下載後照著和藹可親的 readme.txt 走就可以得到 s2t_phrase.js 這個檔,裡面都是片語的简繁對應(像「干」這種一對多繁體字的);

而選「製做單字轉換表 s2t.js」則會得到單一中文字的简繁對應(像「简」->「簡」這類一對一的),

基本上裡面就是大量的简繁對應表,由 javascript 的陣列構成,

而我們只要把這個陣列 copy 下來到我們要用的語言(像 php 這種可以直接以字串當作陣列 index 的),

再稍作修改就可以直接拿來用了。

不過因為其內容都是用 unicode 表示的 (像\u00af 這樣的東東),所以可能要自已轉碼一下。

而 php 剛好有個現成方便的函數:json_encode

實驗了一下,結果是OK的~

php code:

輸出結果:

arrow
arrow

    plane0747 發表在 痞客邦 留言(0) 人氣()