google-app-engine - AppEngine Query.fetch_async不是很异步吗？-6ren

google-app-engine - AppEngine Query.fetch_async不是很异步吗？

转载作者：太空宇宙更新时间：2023-11-03 15:23:19

24

4

我试图通过使用query.fetch_async()异步运行多个子查询来减少AppEngine查询的执行时间。但是，与串行运行查询相比，增益似乎很小。

以下是一些最小的示例代码(在Python中)说明了问题-首先是异步运行的函数:

def run_parallel(self, repeats):
    start = datetime.utcnow()

    futures = []
    for i in xrange(0, repeats):
        q = User.query()
        f = q.fetch_async(300, keys_only=True)
        futures.append(f)

    while futures:
        f = ndb.Future.wait_any(futures)
        futures.remove(f)
        results = f.get_result()
        delta_secs = (datetime.utcnow() - start).total_seconds()
        self.response.out.write("Got %d results, delta_sec: %f<br>\n" %(len(results), delta_secs))

然后是用于相应串行运行的函数:

def run_serial(self, repeats):
    start = datetime.utcnow()
    for i in xrange(0, repeats):
        q = User.query()
        results = q.fetch(300, keys_only=True)
        delta_secs = (datetime.utcnow() - start).total_seconds()
        self.response.out.write("Got %d results, delta_sec: %f<br>\n" %(len(results), delta_secs))

运行这两个函数的输出各10次(不在dev-server上)，即以下调用:

run_parallel(10)
run_serial(10)

如下:

正在运行并行查询...
得到300个结果，delta_sec:0.401090
获得300个结果，delta_sec:0.501700
得到300个结果，delta_sec:0.596110
获得300个结果，delta_sec:0.686120
获得300个结果，delta_sec:0.709220
获得300个结果，delta_sec:0.792070
得到300个结果，delta_sec:0.816500
获得300个结果，delta_sec:0.904360
获得300个结果，delta_sec:0.993600
得到300个结果，delta_sec:1.017320

正在运行串行查询...
得到300个结果，delta_sec:0.114950
得到300个结果，delta_sec:0.269010
获得300个结果，delta_sec:0.370590
得到300个结果，delta_sec:0.472090
获得300个结果，delta_sec:0.575130
得到300个结果，delta_sec:0.678900
获得300个结果，delta_sec:0.782540
得到300个结果，delta_sec:0.883960
获得300个结果，delta_sec:0.986370
获得300个结果，delta_sec:1.086500

因此，并行和串行版本大约需要1秒钟的时间。 Appstat如下，其中前10个查询是并行查询，随后的10个是串行查询:

从这些统计数据来看，前十个查询确实确实在并行运行，但是与单个串行查询相比，它们每个都花费了不成比例的时间。看来他们可能会以某种方式阻止对方，等待对方完成。

所以我的问题是:我的运行异步查询的代码有什么问题吗？还是在AppEngine上异步查询的效率存在固有的局限性？

我想知道是否该行为可能是由以下原因之一引起的:

在相同实体类型上运行异步查询。但是，使用多个不同实体类型的类似示例显示了相似的结果。

运行相同的查询，以某种方式锁定索引的各个部分。但是，在一个相似的示例中，每个查询都不同(返回不相交的结果集)会产生相似的结果。

所以，我有点茫然。任何建议将不胜感激。

更新1

按照Bruyere的建议，我尝试使用db而不是ndb，并且尝试交换并行和串行版本的顺序。结果是一样的。

更新2

这是与同一问题有关的相关文章；关于并行查询为何如此低效的原因仍然没有答案:

Best practice to query large number of ndb entities from datastore

更新3

使用Java SDK的相应代码非常整齐地并行化。这是Java appstats:

确切地说，此Java实现是显式多线程的，在单独的线程中运行查询。这是必要的，因为与AppEngine文档所声称的相反，使用查询迭代器实际上不会导致查询并行执行。

我尝试在Python版本中使用显式多线程与同步查询调用，但结果与原始Python版本相同。

Java版本按预期运行的事实表明，不良的Python异步性能不是由AppEngine CPU瓶颈引起的。

我能想到的唯一替代解释是Python的Global Interpreter Lock导致了崩溃。减少GIL检查间隔(使用sys.setcheckinterval)会加剧不良的异步性能，这一事实得到了支持。

但是，这是令人惊讶的:鉴于查询是受IO约束的，GIL不应产生如此严重的影响。我推测，也许RPC输入缓冲区足够小，以至于异步调用在结果检索期间会频繁恢复，这可能会导致GIL崩溃。我看过Python AppEngine库代码，但是低级RPC调用是由_apphosting_runtime ___ python__apiproxy.MakeCall()进行的，它似乎是封闭源代码。

conclusion，我的结论是Python AppEngine运行时不适合我所需要的那种并行查询，除了迁移到Java运行时外，别无选择。我真的很想避免这种情况，所以我真的希望我错了，错过了一些明显的事情。任何建议或指示，将不胜感激。

谢谢!

最佳答案

主要问题是您的示例主要是CPU绑定(bind)的，而不是IO绑定(bind)的。特别是，大多数时间可能花费在解码RPC结果上，由于GIL，在python中效率不高。 Appstats的问题之一是，它测量从发送RPC到调用get_result()的RPC计时。这意味着在调用get_result之前花费的时间似乎来自RPC。

如果您改为发出IO绑定(bind)RPC(即使数据存储区更难工作的查询)，您将开始看到并行查询的性能提升。

关于google-app-engine - AppEngine Query.fetch_async不是很异步吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25796142/

24

4

0

文章推荐： python - 未呈现页面上的 Pyramid 错误

文章推荐： python - pyqt4的scrollArea事件和matplotlib的wheelEvent

文章推荐： python - 线标密度

java - Named Query or Native Query or Query 从性能角度看哪个更好？
以下哪一个更好(EJB 3 JPA) //查询一个)。 getEntityManager().createQuery("select o from User o"); //命名查询，其中 findA
php - PDO::query() 运行到 "Cannot execute queries while other unbuffered queries are active."
也许其他人和我有同样的问题。我遇到了错误: Cannot execute queries while other unbuffered queries are active.Consider usin
java - 为什么使用@Query (“” )操作Elasticsearch并报错(org.elasticsearch.common.ParsingException : no [query] registered for [query])
我的代码 package com.tl666.elasticsearch.pojo; import lombok.AllArgsConstructor; import lombok.Data; imp
ruby-on-rails - How to query a query in results in rails (query the results of a 'DISTINCT ON' with rails & postgres
简短版:我想查询另一个查询的结果，以便选择更有限的结果集。但是，添加 where 子句会重写第一个查询而不是处理结果，因此我得不到我需要的答案。详情:我有两个模型，支票和蜱虫。检查 has_many
php - Doctrine 和 Symfony2 : How to execute raw queries (General error: 2014 Cannot execute queries while > other unbuffered queries are active)
我正在尝试使用 Doctrine 在 Symfony 框架中执行原始查询。这是代码: class MessagesHandler { /** @var \Doctrine\Common\Pe
coldfusion - Railo Query of Query 返回错误结果
我正在运行以下两个语句: 首先是 A) 它做它需要做的事情并工作: SELECT itemColumn ,valueColumn ,label FROM rstCombinedChartD
sql - Query Of Queries 运行时错误。不能在非数字类型上应用二进制数字运算符 [*|/]
我有一个脚本来查询数据库以获取订单信息，然后查询该查询以获取订单总数。代码看起来像这样。 SELECT oi.OrderQty, oi.ItemPrice FROM Ord
php - 如何修复错误 : Query was empty with query?
这个问题在这里已经有了答案: MySQL Insert query doesn't work with WHERE clause (31 个答案) 关闭 4 年前。我正在从 php 更新数据库中的
javascript - Database.query(Query) 的返回类型不是数组？
在使用 Skygear JS SDK 时，查询是否返回数组？ readDummy: function(){ const Test = skygear.Record.extend('
mysql : query in a query (subquery) not working
我想在一个表上运行 MySQL 查询，然后在该表上运行子查询。我有一个对象列表。每个对象都有一个主要版本和一个次要版本。对于一个对象，我试图找到该对象的“最后版本”:这意味着我想找到该对象的最大值(主
docker - 带有 k8s pv : Error opening query log file"file=/prometheus/queries. active err="open/prometheus/queries.active: permission denied"的普罗米修斯
我正在尝试在 pod 中启动 prometheus，并在 k8s 中使用持久卷。当我启动 pod 时，我看到: level=info ts=2021-09-12T13:58:13.120Z ca
kubernetes - Thanos-Query/Query-Frontend 不显示任何指标
基本上，我从 kube-prometheus-stack 安装了 Prometheues-Grafana使用提供的 helm chart repo prometheus-community # hel
TFS 2010 : Queries based on the elements of other queries?
是否可以根据另一个查询的结果在 TFS 2010 中创建新查询？例如，一个(父)查询选择位于某个工作项下的所有工作项(假设 ID=5 的工作项)。现在我想创建其他查询，从第一个查询的结果中选择所有错
delphi - Query.ExecSQL 之后是否需要 Query.Close？
在 Delphi 中，每当我使用 TQuery 对数据库执行 SELECT 时，我都会在 Query.Open 后面加上 try..finally，并在finally 部分中使用 Query.Clos
php - ezSQL_mysql的声明::query() should be compatible with ezSQLcore::query()
我只是从一台服务器移动到另一台服务器。我的脚本在旧服务器上运行良好，但是我开始在新服务器上收到此错误: "Declaration of ezSQL_mysql::query() should be c
Sqlalchemy - for 循环中 query 和 query.all 之间的区别
我想问一下有什么区别 for row in session.Query(Model1): pass 和 for row in session.Query(Model1).all():
elasticsearch - 我如何使用批注进行类似@Query(value = “{” query“:”“}”的聚合
如何使用注释通过spring-data-elasticsearch进行@Query(value =“{” query“:”“}”)的聚合？最佳答案您不能使用@Query注释来完成此操作，该注释的唯
ColdFusion Query-of-Queries Wildcard LIKE 条件不适用于单引号？
我有一个对可变字符串执行 LIKE 条件的查询: 当变量包含一个包含单引号的单词时，返回一些结果，但不是全部: SELECT ID FROM MyQoQ
mysql - 拉拉维尔 : how to query the result of query scope
我有我的查询范围，它返回数百条记录。我需要在 Controller 中使用不同的过滤器查询这个集合。我怎样才能做到这一点？可能吗？查询范围: Client::join('transactions_
SQL : transform union query to a single query
我有这样的数据库模式用户编号初中生文档编号标题 user_id(用户的外键) 模式(可以接受 PUBLIC 或 PRIVATE) 我想检索所有公开的文档和属于给定用户(矩阵)的所有文档我

首页

博学

6Ren·AI

商城

google-app-engine - AppEngine Query.fetch_async不是很异步吗？