一个机器学习二元分类的问题请教
需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选
想问一下 用机器学习实现这个需求该怎么做呢?
样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选
想问一下 用机器学习实现这个需求该怎么做呢?
样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
样本有多大呢?有100W吗?如果样本很大的话,可以直接深度学习。如果不是太大的话,根据你给出的样本可以直接上逻辑回归。不过要自己提取特征,特征太小可能推荐不精准,特征太大又可能过拟合。还是要自己尝试一下。
先从特征工程上仔细思考?在抓取新闻过程中更多维度的抓取。然后重点落在高质量如何判断。
除此之外,如果不想做特征工程,可以考虑深度学习。将每条新闻,以一串长文本形式进行word embedding作为序列传入神经网络,输出是否高质量的二分类。word embedding可以采用预训练好的或在训练模型时同时训练。