当前位置：文江博客话题详情

分类算法中如何收集停用词？

发布于 2022-09-01 16:53:31 字数 254 浏览 20 评论 0

问题背景：对生物、化学、医学等领域期刊进行分类，分类对象都是英文摘要；

目的：因为噪声太大，需要去掉一些影响分类的停用词；

nltk的corpus给出了一些常用停用词，比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语；

请教有没有什么好方法预先收集到这些停用词？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

御守 2022-09-08 16:53:31

Is,are这样的停用词有现成的，像year这样的可以不用停用词表来过滤，对分类无意义的词在降维的时候就被排除了

回复收藏 0

~没有更多了~

关于作者

梦行七里

暂无简介

0 文章

0 评论

24 人气

关注发私信

胡图图

文章 0 评论 0

关注

zt006

文章 0 评论 0

关注

z祗昰~

文章 0 评论 0

关注

冰葑

文章 0 评论 0

关注

野の

文章 0 评论 0

关注

天空

文章 0 评论 0

友情链接

文江博客

分类算法中如何收集停用词？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

分类算法中如何收集停用词？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。