需要体育、娱乐、健康等类别以及所有子类别的训练数据

发布于 2024-12-18 17:11:38 字数 240 浏览 2 评论 0原文

我正在尝试 ML 中的分类算法,并正在寻找一些语料库来训练我的模型以区分不同的类别,如体育、天气、技术、足球、板球等,

我需要一些指示,告诉我在哪里可以找到这些类别的数据集 对我来说,

另一个选择是抓取维基百科以获取 30 多个类别的数据,但我想要一些集思广益和意见,如果有更好的方法可以做到这一点。

编辑

使用这些类别的词袋方法训练模型 测试 - 根据网页内容将新/未知网站分类到这些预定义类别。

I am experimenting with Classification algorithms in ML and am looking for some corpus to train my model to distinguish among the different categories like sports,weather, technology, football,cricket etc,

I need some pointers on where i can find some dataset with these categories,

Another option for me, is to crawl wikipedia to get data for the 30+ categories, but i wanted some brainstorming and opinions, if there is a better way to do this.

Edit

Train the model using the bag of words approach for these categories
Test - classify new/unknown websites to these predefined categories depending on the content of the webpage.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

吃素的狼 2024-12-25 17:11:38

UCI 机器学习存储库 包含用于监督学习的可搜索数据集存档。

如果您提供有关理想数据集具有哪些输入和输出的更具体信息,您可能会得到更好的答案。

编辑:

The UCI machine learning repository contains a searchable archive of datasets for supervised learning.

You might get better answers if you provide more specific information about what inputs and outputs your ideal dataset would have.

Edit:

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文