分割机器学习的数据
我有一个包含文本的数据框,我想根据机器学习过程的“作者”列将数据分开。例如,我想培训来自Aeschylus和Sophocles的文字,并测试Euripides的文字。我该怎么做?我正在使用Sklearn。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我有一个包含文本的数据框,我想根据机器学习过程的“作者”列将数据分开。例如,我想培训来自Aeschylus和Sophocles的文字,并测试Euripides的文字。我该怎么做?我正在使用Sklearn。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
尝试根据以下方式调整代码:
Try to adapt your code according to this:
这就是GroupKfold的目的,它将组列还为特征和目标:
请参见文档:此处:
That's what GroupKFold is for, it takes the group column additionally to features and target:
See documentation here:
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html#sklearn.model_selection.GroupKFold