偶然的机会,看到sogou实验室发布的互联网词库以及互联网语料库。从“SogouLab 数据使用许可证”来看,似乎可以应用到opensource软件中,但要注明数据提供方(搜狐研发中心)。我们想SunPinyin的词库,将来可以更丰富一些,不过现在sogou提供下载的词库中没有读音标注。而且各位应该可以使用Sogou的语料库来训练SunPinyin中使用的统计语言模型。

另外让我感兴趣的是,在Sogou发布的互联网语料库中,包含了许多sohu网站的网页内容。这样将他人网站的网页内容,收集下来并发布,是否存在版权的问题呢?是不是在语料库中标明出处(url地址)就可以了呢?

在“Sogou说吧”发了个问题,希望有乐观的答案。:)
评论:

继续关注你的博客

发表于 kak 在 2007年08月19日, 06:34 下午 CST #

发表一条评论:
该日志评论功能被禁用了。

This blog copyright 2009 by yongsun