在 RAND() 函数中指定种子数
我在 Python 中使用 SQL。
我正在从一组数据(100 万行以上)中运行 100 个样本集。我正在使用以下函数:
RAND() <= 0.0025 LIMIT 100
我无法获得好的样本,因为字段重复(数据中没有重复)。如果我改变种子数量 - 它会变得更好。
我尝试搜索什么作为种子号和种子号。种子数如何工作但找不到任何相关内容。
我想知道为什么在实例中设置 0.0025 会比 0.45 更好?
I'm using SQL in Python.
I'm running a sample set of 100 from a population of data (1mn+ rows). I am using the following function:
RAND() <= 0.0025
LIMIT 100
I am unable to get a good sample as the fields are duplicating (there is no duplication in data). If i change the seed number- it gets better.
I tried searching what to put as seed number & how seed number works but couldn't find anything relevant.
I want to know why setting 0.0025 would be better than 0.45 in an instance?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论