请问分词器的词典里的词存在空格怎么处理?

发布于 2021-11-25 19:39:50 字数 313 浏览 808 评论 7

@杨尚川 你好,想跟你请教个问题:

当想我使用Word想对一些文本进行分词时,我想能分出这样带空格的词,如:Uniform Server

 但是,我即使把Uniform Server这个词加入到main_dic.txt主词典中,我也没有办法得到分词:uniform server。请问我有什么办法能得到这种带空格的词吗?


谢谢

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

孤檠 2021-12-02 11:02:50

@林良益 我看了下别人的共词分析的代码,这个东西似乎不适合我。我现在想想用分词的思路似乎是一个无底洞。我现在想是不是能使用贝叶斯分类算法来实现我的为文本打标签。

梦中楼上月下 2021-12-02 10:57:13

引用来自“林良益”的评论

如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。

如果是做语义分析的话,建议在分词后进行keyword的拼接。

另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。

狼亦尘 2021-12-02 10:41:32

如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。

如果是做语义分析的话,建议在分词后进行keyword的拼接。

另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。

苍暮颜 2021-12-02 10:38:39

就是文本有点多啊。~~~ 我要对一个论坛里的所有的帖子进行词频分析。但是我只想统计技术方面的词或者我感兴趣的一些词的词频而已。

月亮是我掰弯的 2021-12-02 10:27:40

回复
关于你说的词频分析,可以参考一下网上的关于“共词分析"的论文,就是解决多词间的共现关系的

混吃等死 2021-12-02 06:34:31

回复
现在在看。谢谢。

傾城如夢未必闌珊 2021-12-01 17:16:31

引用来自“林良益”的评论

如果是为了搜索目的而将两个词合二为一的话,我建议使用搜索表达式来解决相应问题,比如在solr中,使用“Uniform Server”~0 表示搜索两个相邻无间隔的词。

如果是做语义分析的话,建议在分词后进行keyword的拼接。

另外,我想回答一下,为何不能再分词器中保证空格被包含在一个词内?原因是,分词器在处理长文本是,通常是一段一段载入内存的,如果连空格都作为可能的连接符,那么分词器就无法进行文本截断了。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文