Kov Chai is poring SunPinyin ime to SCIM platform, and made impressive progress just after 1 week. Here is his blog entry about this.


评论:

谢谢你的分析,第一次对输入法有了一个更深刻的认识。加油哦。。。

另外,sunpinyin所使用的两个数据文件实在是太大了,不适合移植到手持设备上,不知道能否有所改进?我的一些想法:
1.增加一个选项,可以使输入法引擎不要加载使用slm语言模型,由于genpyt生成的遍历表中,已经对有对应词语的节点上的单词进行了一个unigram的排序,相当于上下文无关的词频排序,这个信息已经很丰富的。
2.改变word_id的编码,对于单字,直接使用其unicode作为word_id,不再列入查找表,不过由于没有原始的语料库,只能通过外部程序遍历两个数据文件打补丁,而且节省不了多少空间,似乎不是一个好的想法。

发表于 dragonit 在 2007年09月28日, 10:27 下午 CST #

dragonit,非常感谢您的建议!没错,pytrie是可以直接使用的,另外我们也可以参考sogou的词频表(应该更精确,只是没有拼音标注)。关于第二个建议,直接用unicode作为word_id是可行的(例如将最高位置1),不过以我粗略的估计,单字词只占整个词表一个比较小的部分(不到1/6)。最后关于语料库,我想可以使用sogou公开的语料库,按我的理解,用于开源项目是没问题的。Sunpinyin这个项目还有很大的改进余地,非常期待您能一起参加。

发表于 Yong Sun 在 2007年09月28日, 11:01 下午 CST #

另外,我想手持设备上可以:缩减词表的大小,构造一个bigram而不是trigram,并在pruning时力度大些,这样空间上会节省许多。

发表于 Yong Sun 在 2007年09月28日, 11:06 下午 CST #

我发现scim版的SunPinYin有十个选字,但Sun的版本(IIIMF)只有六个,很不方便。 后者可否修改? 谢谢

发表于 W. Wayne Liauh 在 2007年09月30日, 05:19 上午 CST #

Wayne,可以修改,只是如果输入的句子长度很长时,10个候选占的屏幕长度就比较长了。这个将来应该是可配置的选项。由用户的偏好来定。

发表于 Yong Sun 在 2007年09月30日, 06:38 上午 CST #

发表一条评论:
该日志评论功能被禁用了。

This blog copyright 2009 by yongsun