site search

 
112q 11111

本博客内所有生命科学内容均基于科研目的,相关临床医学部分具体应用时有关医生需根据具体临床状况进行正确判断。本博客不承担任何由此带来的法律与道德责任。

2009-05-18

http://code.google.com/p/ciku/

http://code.google.com/p/ciku/


http://www.linuxsir.org/bbs/showthread.php?t=347526
如何扩展小企鹅输入法的词库 更新程序算法2009-04-01











如何扩展小企鹅输入法的词库

1.sg2fcitx扩展搜狗细胞词库http://code.google.com/p/sg2fcitx/

http://pinyin.sogou.com/dict/

下载你需要的txt版细胞词库.


代码:

sg2fcitx 搜狗细胞词库.txt > fcitx式的文件.txt
cat fcitx式的文件.txt >> pyPhrase.org

再用程序noOverlap消除重复的词。

替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了.

参考链接:http://blog.chinaunix.net/u/30503/showart_1880495.html

http://blog.chinaunix.net/u/30503/showart_1883904.html



2.使用open-phrase的词库

到open-phrase上面下载词库http://code.google.com/p/open-phrase/


代码:

# cat phrase_pinyin_freq_sc.txt | sort +2 -3 -r -g | awk '{print $2 " " $1 " " $3}' > try.txt
# uniq try.txt | awk '{print $1 " " $2}' > pyPhrase_op.org

替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了.

这个词库偏大。

参考链接:http://blog.chinaunix.net/u/30503/showart_1884473.html





附则:

noOverlap用法: ./noOverlap

要求:noOverlap当前目录下有pyPhrase.org文件用于消除重复词汇,自动生成tmp.txt文件里没有重复的词汇,即无重复词汇的pyPhrase.org

0 评论:

博客归档

关注者