查询分布式表有点慢,感觉有问题,请帮忙分析一下
我导入csv数据到DolphinDB分布式表中,代码如下:
db = database("dfs://kqdb", VALUE, 1970.01M..2020.12M)
pt = db.loadTextEx(db, `kq,`time, "/usr/database/kq.csv");
导入后,我查询一年的数据,代码如下:
kq=database("dfs://kqdb").loadTable("kq")
select count(*) from kq where temporalFormat(time,"yyyy-MM-dd")>='2019-01-01' and temporalFormat(time,"yyyy-MM-dd")<='2019-12-31' and grade=10 and class=1 group by status
一年的数据约20多万行,查询花了31s多(如下图所示),我感觉有问题,不至于要30多秒吧?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
where条件要优化一下,写成如下:
DolphinDB在解决海量数据的存取时,并不提供行级的索引,而是将分区作为数据库的物理索引。系统在执行分布式查询时,首先根据WHERE条件确定需要的分区。大多数分布式查询只涉及分布式表的部分分区,系统不必全表扫描,从而节省大量时间。但若不能根据where条件确定分区,就会全表扫描,影响查询性能。详情可参阅分区设计教程第7节。