如何将两个PANDAS DATAFRAME加载到Hugginface的数据集对象中?
我正在尝试将火车和测试数据框架加载到数据集对象中。将熊猫数据框加载到数据集对象的常用方法是:
from datasets import Dataset
import pandas as pd
df = pd.DataFrame({"a": [1, 2, 3]})
dataset = Dataset.from_pandas(df)
我的问题是如何将火车和测试两个熊猫数据框架加载到数据集中?
例如,如果我有两个数据范围:
from datasets import Dataset
import pandas as pd
df_train = pd.DataFrame({"a": [1, 2, 3]})
df_test = pd.DataFrame({"ab": [1, 2, 3]})
如何加载这两个帧?
I am trying to load the train and test data frame into the dataset object. The usual way to load a pandas dataframe into dataset object is:
from datasets import Dataset
import pandas as pd
df = pd.DataFrame({"a": [1, 2, 3]})
dataset = Dataset.from_pandas(df)
My question is how to load train and test both pandas dataframe into the dataset?
for example if I have two dataframes:
from datasets import Dataset
import pandas as pd
df_train = pd.DataFrame({"a": [1, 2, 3]})
df_test = pd.DataFrame({"ab": [1, 2, 3]})
How to load these two frames?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以使用
datasetDict
和dataset.from_pandas()()
使用datasetDict
datasetDict 。您可以通过将密钥添加到数据集量来保持火车和测试拆分。导致
您可以使用
contenate_datasets()
来串联数据集列表。这导致
You are able to load both pandas dataframes into a dataset using
DatasetDict
andDataset.from_pandas()
. You can keep your train and test split by adding keys to to the DatasetDict.which results in
You can use
concatenate_datasets()
to concatenate a list of datasets.which results in