当前位置：文江博客话题详情

将RDF数据集拆分为两个随机数据集

发布于 2025-02-07 11:56:47 字数 58 浏览 2 评论 0原文

我有一个来自

我能想到的是，通过谓词订购三元组数据集，然后随机洗牌并挑选每个谓词三元组。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜吻♂芭芘 2025-02-14 11:56:47

由于您的数据集似乎以每行三个三倍的格式提供，因此您可以通过文件迭代，并以50％的概率进行每行，以创建一个随机子集，其中包含大约一半的三元组。

例如，这是如何用尴尬做到这一点的方法：

awk 'BEGIN { srand() } int(rand()*2)' < watdiv.100M.nt > watdiv.100M.sample.1.nt

解释：在开始块中，通过调用srand（） 函数。当无参数调用时，它将将当前日期和时间用作种子。如果您需要可重现的结果，请在此处将种子设置为一些固定值。然后，对于每行，生成一个随机整数（0或1。

如果您想要两个这样的随机子集，其中每个三倍可能会出现在两者中，只需两次运行命令即可。

如果您想要两个不相交的随机子集，而每个三倍的恰好在其中之一中，则可以这样做：

awk 'BEGIN { srand() } { print > "watdiv.100M.sample." int(rand()*2) ".nt" }' < watdiv.100M.nt

Since it appears that your dataset is available in a format with one triple per line, you can just iterate through the file and take every row with a 50% probability to create a random subset containing approximately half of the triples.

For example, here is how to do it with AWK:

awk 'BEGIN { srand() } int(rand()*2)' < watdiv.100M.nt > watdiv.100M.sample.1.nt

Explained: In the BEGIN block, initialize the random number generator by calling the srand() function. When called without an argument, it will use the current date and time as the seed. If you want reproducible results, set the seed here to some fixed value. Then for each line, generate a random integer, either 0 or 1. If it is non-zero (true), print the current line.

If you want two such random subsets where each triple may appear in both, just run the command twice.

If you want two disjoint random subsets, where each triple is in exactly one of them you can do it like this:

awk 'BEGIN { srand() } { print > "watdiv.100M.sample." int(rand()*2) ".nt" }' < watdiv.100M.nt

回复收藏 0 原文

~没有更多了~

关于作者

太阳男子

暂无简介

文章

28 人气

关注发私信

友情链接

文江博客

将RDF数据集拆分为两个随机数据集

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

空城旧梦

破晓

半仙

宫墨修音

17780639550

潮男不是我

友情链接

将RDF数据集拆分为两个随机数据集

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

空城旧梦

破晓

半仙

宫墨修音

17780639550

潮男不是我

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。