需要体育、娱乐、健康等类别以及所有子类别的训练数据
我正在尝试 ML 中的分类算法,并正在寻找一些语料库来训练我的模型以区分不同的类别,如体育、天气、技术、足球、板球等,
我需要一些指示,告诉我在哪里可以找到这些类别的数据集 对我来说,
另一个选择是抓取维基百科以获取 30 多个类别的数据,但我想要一些集思广益和意见,如果有更好的方法可以做到这一点。
编辑
使用这些类别的词袋方法训练模型 测试 - 根据网页内容将新/未知网站分类到这些预定义类别。
I am experimenting with Classification algorithms in ML and am looking for some corpus to train my model to distinguish among the different categories like sports,weather, technology, football,cricket etc,
I need some pointers on where i can find some dataset with these categories,
Another option for me, is to crawl wikipedia to get data for the 30+ categories, but i wanted some brainstorming and opinions, if there is a better way to do this.
Edit
Train the model using the bag of words approach for these categories
Test - classify new/unknown websites to these predefined categories depending on the content of the webpage.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
UCI 机器学习存储库 包含用于监督学习的可搜索数据集存档。
如果您提供有关理想数据集具有哪些输入和输出的更具体信息,您可能会得到更好的答案。
编辑:
The UCI machine learning repository contains a searchable archive of datasets for supervised learning.
You might get better answers if you provide more specific information about what inputs and outputs your ideal dataset would have.
Edit: