参考资料
1 . 李晓明等著 搜索引擎:原理、技术与系统 科学出版社 2005
2 . 搜索引擎系统学习与开发总结-相生昌 中国知网数图研发部 2005.4.18
3 . 张华平.ICTCLAS[EB/OL]. [2009-08-15]. http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm . 2002.
[4]. 黄昌宁.赵海 中文分词十年回顾 中文信息学报, 2007(3)
[5]. Lucene 3.0 的几种分词系统 http://hi.baidu.com/wk19/blog/item/e77ffc43dc18121c9213c624.html
[6]. 常见中文分词开源项目 http://com1com4.javaeye.com/blog/707853
评测相关链接
由美国国防部高等研究计划署(DARPA) 与美国国家标准和技术局(NIST) 共同举办的 TREC(文本信息检索会议) 就是一直基于此方法组织信息检索评测和技术交流论坛。提供跨语言检索(CLIR)、博客、问答系统等多个 track 的评测及相关数据。
NTCIR (NACSIS Test Collections for IR)
其目的是希望能建立一个日文标准测试集,作为咨询检索与自然语言处理研究的基础预料。NTCIR-5 开始,加入繁体中文(Big-5) 测试集。
由国内北大天网和北大计算语言所合办,提供中文网页检索、中文网页分类和垃圾邮件评测。
- Chinese Web Information Retrieval Forum, http://www.cwirf.org/
- Symposium of Search Engine and WebMining, http://net.pku.edu.cn/~sewm/
号称打造最权威的中文信息处理数据提供和评测平台。[2007.3—2008]
测试样例
表格 歧义例子
样例 | 正确切分 | 错误切分 | 解释 | 释义 |
---|---|---|---|---|
他将来我校讲学 | 他 将 来 我 校 讲学 | 他 将来 我 校 讲学 | 组合型歧义,将来 -> 将 来 | |
从马上跳下来 | 从 马上 跳 下来 | 从 马 上 跳 下来 | 组合型歧义, 马上 -> 马 上 | |
使用户满意 | 使 用户 满意 | 使用 户 满意 | 交集型歧义,使用户 -> 使用 用户 | |
研究生命的起源 | 研究 生命 的 起源 | 研究生 命 的 起源 | 交集型歧义,研究生命 -> 研究生 生命 |
备注:交集型歧义出现较少,消解更为困难。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论