如何创建用于测试目的的大数据集?
我需要测试一些图表类。对于这些,我想创建一个包含 1-200 万数据的大数据集!我怎样才能创建这么大的数据集?
谢谢
I need to test some charting classes. For these I want to create a big dataset of 1-2 million data! How can I create such big datasets?
thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
这个问题有点太开放了,但总之你可以创建一个程序来生成随机数据。基本上对于每个数据字段,选择一个数据范围(例如:0 - 100、“真”/“假”等)。然后让您的程序用随机数据填充每个字段。将该字段写入您的数据集并重复该过程数百万次......
This question is a bit too open-ended, but in short you could create a program to generate random data. Basically for each data field, choose a data range (EG: 0 - 100, "true" / "false", etc). Then have your program populate each field with random data. Write that field to your dataset and repeat the process millions of times...
Visual Studio Team System 数据库版本可以执行此操作
如何视频
visual studio team system database edition has facilities to do this
how to video
复制任何现有数据并粘贴数百万次。
copy any existing data and paste it millions of times.
任何基于文本的内容,您都可以使用它作为种子,也许只需将其设为字符串,然后将其拆分为字符串数组并开始组合数组的随机索引,对于数字,只需使用随机功能。这是你的种子:
Lorem ipsum dolor sat amet, consectetur adipiscing elit。 Fusce scelerisque nulla congue felis interdum nec lobortis turpis blandit。 Ut sagittis molestie lacinia。菜豆 (Phasellus iaculis justo vel ligula frontibulum pretium)。菜豆 (Phasellus non iaculis nibh)。 Curabitur eu ipsum dignissim eros volutpat dignissim。 Maecenas lobortis ultricies nisl,坐 amet laoreet leo tristique eget。 Donec ullamcorper、metus condimentum vehicula mollis、urna lorem Tincidunt arcu、eget rutrum nisl enim sat amet enim。 Aliquam ac mitellus。 Nullam vitae justo lacus,in posuere arcu。 Aliquam 发酵液 eu urna congue pellentesque。 Nammalesuadatinciduntiodio,eget adipiscing libero pulvinar sat amet。 Ut risus dolor、condimentum non cursus ut、convallis vitae elit。 Aliquam ultricies 导致 nulla eget convallis。 Maecenas eget sollicitudin neque。 Etiam aliquam Commodo sagittis。 Morbi pellentesque metus ut eros euismod ullamcorper。
Anything text based, you can use this as your seed, maybe just make it a string then split it into a string array and start combining random indexes of the array, and for numbers just use the random functionality. Here's your seed:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce scelerisque nulla congue felis interdum nec lobortis turpis blandit. Ut sagittis molestie lacinia. Phasellus iaculis justo vel ligula vestibulum pretium. Phasellus non iaculis nibh. Curabitur eu ipsum dignissim eros volutpat dignissim. Maecenas lobortis ultricies nisl, sit amet laoreet leo tristique eget. Donec ullamcorper, metus condimentum vehicula mollis, urna lorem tincidunt arcu, eget rutrum nisl enim sit amet enim. Aliquam ac mi tellus. Nullam vitae justo lacus, in posuere arcu. Aliquam fermentum lacus eu urna congue pellentesque. Nam malesuada tincidunt odio, eget adipiscing libero pulvinar sit amet. Ut risus dolor, condimentum non cursus ut, convallis vitae elit. Aliquam ultricies consequat nulla eget convallis. Maecenas eget sollicitudin neque. Etiam aliquam commodo sagittis. Morbi pellentesque metus ut eros euismod ullamcorper.
利用现有数据集,例如 Stackoverflow 用户数据。
Take advantage of existing data sets, like the Stackoverflow user data.
我的项目 http://fluenceetl.codeplex.com/ 可能会帮助你。
您可以轻松地使用它将测试数据转储到数据库中,这实际上在示例中进行了说明。
一个示例通过代码生成数据。另一个示例连接 2 个文本文件、名字列表和姓氏列表,并将所有可能的组合插入到表中。您可以创建自己的随机数据循环以保存到数据库中。
My project http://fluentetl.codeplex.com/ might help you with this.
You can easily use it to dump test data into your database and this is actually illustrated in the examples.
One example generates data through code. Another example joins 2 text files, a list of first names and a list of last names and inserts all possible combinations into a table. You can make your own loop of random data to save to your database.