当前位置：文江博客话题详情

分割机器学习的数据

发布于 2025-02-10 11:44:37 字数 109 浏览 0 评论 0 原文

我有一个包含文本的数据框，我想根据机器学习过程的“作者”列将数据分开。例如，我想培训来自Aeschylus和Sophocles的文字，并测试Euripides的文字。我该怎么做？我正在使用Sklearn。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

成熟的代价 2025-02-17 11:44:38

尝试根据以下方式调整代码：

authors = ["Aesch", "Soph", "Euri", "Aesch", "Soph", "Euri"]
df = pd.DataFrame(authors, columns=["author"])
df["text"] = ["abc", "bcd", "cde", "abc", "bcd", "cde"]

# split your dataframe with a condition
train = df[df.author!="Euri"]
test = df[df.author=="Euri"]

Try to adapt your code according to this:

authors = ["Aesch", "Soph", "Euri", "Aesch", "Soph", "Euri"]
df = pd.DataFrame(authors, columns=["author"])
df["text"] = ["abc", "bcd", "cde", "abc", "bcd", "cde"]

# split your dataframe with a condition
train = df[df.author!="Euri"]
test = df[df.author=="Euri"]

回复收藏 0 原文

凡间太子 2025-02-17 11:44:38

这就是GroupKfold的目的，它将组列还为特征和目标：

group_kfold = GroupKFold(n_splits=2)
X_train, X_test, y_train, y_test = group_kfold.split(X, y, group)

请参见文档：此处：

That's what GroupKFold is for, it takes the group column additionally to features and target:

group_kfold = GroupKFold(n_splits=2)
X_train, X_test, y_train, y_test = group_kfold.split(X, y, group)

See documentation here:
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html#sklearn.model_selection.GroupKFold

回复收藏 0 原文

~没有更多了~

关于作者

鸠魁

暂无简介

文章

26 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

分割机器学习的数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

分割机器学习的数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。