一个机器学习二元分类的问题请教

发布于 2022-09-07 16:17:39 字数 167 浏览 10 评论 0

需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选

想问一下 用机器学习实现这个需求该怎么做呢?

样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

蒲公英的约定 2022-09-14 16:17:39

样本有多大呢?有100W吗?如果样本很大的话,可以直接深度学习。如果不是太大的话,根据你给出的样本可以直接上逻辑回归。不过要自己提取特征,特征太小可能推荐不精准,特征太大又可能过拟合。还是要自己尝试一下。

爱冒险 2022-09-14 16:17:39

先从特征工程上仔细思考?在抓取新闻过程中更多维度的抓取。然后重点落在高质量如何判断。

  • 如出现次数,评论数,互评数,长度,是否广告,都可能是影响文章“质量”的因素。
  • 然后再以上述数据作为输入传入模型(LR/DT/SVM),输出结果。

除此之外,如果不想做特征工程,可以考虑深度学习。将每条新闻,以一串长文本形式进行word embedding作为序列传入神经网络,输出是否高质量的二分类。word embedding可以采用预训练好的或在训练模型时同时训练。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文