@杨尚川 你好,想跟你请教个问题:
当想我使用Word想对一些文本进行分词时,我想能分出这样带空格的词,如:Uniform Server
但是,我即使把Uniform Server这个词加入到main_dic.txt主词典中,我也没有办法得到分词:uniform server。请问我有什么办法能得到这种带空格的词吗?
谢谢
@林良益 我看了下别人的共词分析的代码,这个东西似乎不适合我。我现在想想用分词的思路似乎是一个无底洞。我现在想是不是能使用贝叶斯分类算法来实现我的为文本打标签。
如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。
如果是做语义分析的话,建议在分词后进行keyword的拼接。
另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。
就是文本有点多啊。~~~ 我要对一个论坛里的所有的帖子进行词频分析。但是我只想统计技术方面的词或者我感兴趣的一些词的词频而已。
回复关于你说的词频分析,可以参考一下网上的关于“共词分析"的论文,就是解决多词间的共现关系的
回复现在在看。谢谢。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(7)
@林良益 我看了下别人的共词分析的代码,这个东西似乎不适合我。我现在想想用分词的思路似乎是一个无底洞。我现在想是不是能使用贝叶斯分类算法来实现我的为文本打标签。
引用来自“林良益”的评论
如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。
如果是做语义分析的话,建议在分词后进行keyword的拼接。
另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。
如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。
如果是做语义分析的话,建议在分词后进行keyword的拼接。
另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。
就是文本有点多啊。~~~ 我要对一个论坛里的所有的帖子进行词频分析。但是我只想统计技术方面的词或者我感兴趣的一些词的词频而已。
回复
关于你说的词频分析,可以参考一下网上的关于“共词分析"的论文,就是解决多词间的共现关系的
回复
现在在看。谢谢。
引用来自“林良益”的评论
如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。
如果是做语义分析的话,建议在分词后进行keyword的拼接。
另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。