在合理的时间内将数千个实体插入 BigTable

发布于 2024-11-15 12:42:22 字数 820 浏览 3 评论 0原文

当我尝试将 36k 法国城市插入 BigTable 时遇到一些问题。我正在解析一个 CSV 文件，并使用这段代码将每一行放入数据存储中：

import csv
from databaseModel import *
from google.appengine.ext.db import GqlQuery

def add_cities():
spamReader = csv.reader(open('datas/cities_utf8.txt', 'rb'), delimiter='\t', quotechar='|')
mylist = []
for i in spamReader:
    region = GqlQuery("SELECT __key__ FROM Region WHERE code=:1", i[2].decode("utf-8"))
    mylist.append(InseeCity(region=region.get(), name=i[11].decode("utf-8"), name_f=strip_accents(i[11].decode("utf-8")).lower()))
db.put(mylist)

使用本地开发服务器大约需要 5 分钟（！！！），使用 db.delete() 删除它们时甚至需要 10 分钟功能。当我在线尝试调用包含 add_cities() 的 test.py 页面时，达到了 30 秒超时。我来自 MySQL 世界，我认为如果不在不到一秒的时间内添加 36k 个实体，那真是太遗憾了。我的做法可能是错误的，所以我指的是你：

为什么这么慢？
有什么办法可以在合理的时间内做到这一点吗？

谢谢：）

原文

I'm having some issues when I try to insert the 36k french cities into BigTable. I'm parsing a CSV file and putting every row into the datastore using this piece of code:

import csv
from databaseModel import *
from google.appengine.ext.db import GqlQuery

def add_cities():
spamReader = csv.reader(open('datas/cities_utf8.txt', 'rb'), delimiter='\t', quotechar='|')
mylist = []
for i in spamReader:
    region = GqlQuery("SELECT __key__ FROM Region WHERE code=:1", i[2].decode("utf-8"))
    mylist.append(InseeCity(region=region.get(), name=i[11].decode("utf-8"), name_f=strip_accents(i[11].decode("utf-8")).lower()))
db.put(mylist)

It's taking around 5 minutes (!!!) to do it with the local dev server, even 10 when deleting them with db.delete() function.
When I try it online calling a test.py page containing add_cities(), the 30s timeout is reached.
I'm coming from the MySQL world and I think it's a real shame not to add 36k entities in less than a second. I can be wrong in the way to do it, so I'm refering to you:

Why is it so slow ?
Is there any way to do it in a reasonnable time ?

Thanks :)

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦醒灬来后我 2024-11-22 12:42:22

首先，这是数据存储，而不是 Bigtable。数据存储使用bigtable，但它在此基础上添加了更多内容。

进展如此缓慢的主要原因是您正在为添加的每条记录进行查询（在“区域”类型上）。这不可避免地会大大减慢速度。您可以采取两件事来加快速度：

使用 Region 的 code 作为其 key_name，使您能够更快地获取数据存储而不是查询。事实上，由于您只需要引用属性的区域键，因此在这种情况下根本不需要获取区域。
将区域列表缓存在内存中，或者根本不将其存储在数据存储中。就其本质而言，我猜测区域既是一个小列表，又不经常更改，因此可能不需要首先将其存储在数据存储中。

此外，加载大量数据时，您应该使用 mapreduce 框架以避免超时。它还内置支持从 blobstore blob 读取 CSV。