python - 大集合的 Firestore DeadlineExceeded 异常

转载作者：IT王子更新时间：2023-10-29 00:46:57

我正在尝试从 Google Firestore 读取更大的集合以进行测试和存档。当我尝试从包含超过 6k 文档的集合中获取所有文档时，我遇到了一些有趣的错误。

朴素的 Python 解决方案

我的第一次尝试是使用 Python google-cloud-firestore(版本 0.30.0)库。

source_client = firestore.Client()
source = source_client.collection(collection)
source_data = source.get()

counter = 0
for f in source_data:
    app.logger.info(f.id)
    counter += 1
    if counter % 100 == 0:
        app.logger.info('%s %d', datetime.now(), counter)

    app.logger.info('%s Finally read all %d documents', datetime.now(), counter)

给出以下输出:

INFO:flask.app:2018-11-08 09:49:03.923795 6400  
INFO:flask.app:2018-11-08 09:49:04.115410 6500  
... 
INFO:flask.app:2018-11-08 09:49:03.923795 6400
INFO:flask.app:2018-11-08 09:49:04.115410 6500
WARNING:flask.app:2018-11-08 09:49:04.128478 copy brocken by exception
Traceback (most recent call last):
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 2309, in __call__
    return self.wsgi_app(environ, start_response)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 2295, in wsgi_app
    response = self.handle_exception(e)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1741, in handle_exception
    reraise(exc_type, exc_value, tb)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/_compat.py", line 35, in reraise
    raise value
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 2292, in wsgi_app
    response = self.full_dispatch_request()
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1815, in full_dispatch_request
    rv = self.handle_user_exception(e)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1718, in handle_user_exception
    reraise(exc_type, exc_value, tb)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/_compat.py", line 35, in reraise
    raise value
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1813, in full_dispatch_request
    rv = self.dispatch_request()
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1799, in dispatch_request
    return self.view_functions[rule.endpoint](**req.view_args)
  File "/home/carsten/projects/transfertool/firestore/transfertool/main.py", line 142, in transfer
    count_collection(source_collection)
  File "/home/carsten/projects/transfertool/firestore/transfertool/main.py", line 94, in count_collection
    for f in source_collection.offset(1000).get():
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/google/cloud/firestore_v1beta1/query.py", line 588, in get
    for index, response_pb in enumerate(response_iterator):
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/google/api_core/grpc_helpers.py", line 83, in next
    six.raise_from(exceptions.from_grpc_error(exc), exc)
  File "<string>", line 3, in raise_from
    # Permission is hereby granted, free of charge, to any person obtaining a copy
google.api_core.exceptions.DeadlineExceeded: 504 Deadline Exceeded

这似乎是由配额引起的。就算看不见here .它似乎是基于时间的，因为当我在元素之间进行少量 sleep 时，我的吞吐量会减少，并在 ~50 秒后出现异常。

使用 Python 进行分页

对于这个问题，这个库中有一个分页部分。由于我的应用程序不应该关心我尝试传输的数据类型，因此我不能使用 start_after 接口(interface)，但仍然有一个偏移量接口(interface)，我至少可以使用它进行批量读取。

for f in source_collection.offset(last_read_offset).get():

只要 last_read_offset 低于 1001，它就会给我正确的结果。如果我从 1000 的偏移量开始，我可以获得结果，直到我得到 google.api_core.exceptions.DeadlineExceeded上面的异常。但是当我从更大的东西开始时，我得到:

Traceback (most recent call last):
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 2309, in __call__
    return self.wsgi_app(environ, start_response)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 2295, in wsgi_app
    response = self.handle_exception(e)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1741, in handle_exception
    reraise(exc_type, exc_value, tb)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/_compat.py", line 35, in reraise
    raise value
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 2292, in wsgi_app
    response = self.full_dispatch_request()
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1815, in full_dispatch_request
    rv = self.handle_user_exception(e)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1718, in handle_user_exception
    reraise(exc_type, exc_value, tb)
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/_compat.py", line 35, in reraise
    raise value
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1813, in full_dispatch_request
    rv = self.dispatch_request()
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/flask/app.py", line 1799, in dispatch_request
    return self.view_functions[rule.endpoint](**req.view_args)
  File "/home/carsten/projects/transfertool/firestore/transfertool/main.py", line 144, in transfer
    count_collection(source_collection)
  File "/home/carsten/projects/transfertool/firestore/transfertool/main.py", line 94, in count_collection
    for f in source_collection.offset(1001).get():
  File "/home/carsten/projects/transfertool/venv/lib/python3.6/site-packages/google/cloud/firestore_v1beta1/query.py", line 599, in get
    raise ValueError(msg)
ValueError: Unexpected server response. All responses other than the first must contain a document. The response at index 1 was
read_time {
  seconds: 1541668338
  nanos: 420813000
}
skipped_results: 1

查看库代码，后端似乎正在发送一条被解释为无效的消息。

通过 node.js 重试

好吧，也许我的代码或 Python 客户端库有问题。让我们尝试使用 Node 。

const admin = require('firebase-admin');
admin.initializeApp({
    credential: admin.credential.applicationDefault()
});

var db = admin.firestore();
admin.firestore().settings( { timestampsInSnapshots: true })
var counter = 0

console.log('Read collection')
db.collection(collection).get()
    .then(querySnapshot => {
        querySnapshot.forEach(documentSnapshot => {
            counter++;
        });
        console.log(counter)
    })
    .catch( error => {
        console.log(error)
});

这与 python 库的作用相同，即使超时更明显地为 60 秒。

[2018-11-09T08:36:30.992Z] App listening on port 8080
[2018-11-09T08:36:30.993Z] Press Ctrl+C to quit.
[2018-11-09T08:36:37.390Z] Read collection
[2018-11-09T08:37:37.406Z] { Error: 4 DEADLINE_EXCEEDED: Deadline Exceeded
    at Object.exports.createStatusError (/home/carsten/projects/node_modules/grpc/src/common.js:87:15)
    at ClientReadableStream._emitStatusIfDone (/home/carsten/projects/node_modules/grpc/src/client.js:235:26)
    at ClientReadableStream._readsDone (/home/carsten/projects/node_modules/grpc/src/client.js:201:8)
    at /home/carsten/projects/node_modules/grpc/src/client_interceptors.js:679:15
  code: 4,
  metadata: Metadata { _internal_repr: {} },
  details: 'Deadline Exceeded' }

有没有人有类似的经历或如何继续的好提示？

PS:exportDocument/importDocument 接口(interface)不够用，我们有时需要在读取数据后进行调整。我不知道 Firestore 导出到 Google Cloud Storage 的格式是什么，也不知道如何转换它。

编辑:golang

最后我尝试了 golang api。

log.Println("Collecting data")
snapshotIter := client.Collection(collection.(string)).Documents(ctx)
defer snapshotIter.Stop()

if err != nil {
    log.Fatalln(err)
}

i := 0

for {
    _, err := snapshotIter.Next()

    if err == iterator.Done {
        break
    }
    if err != nil {
        log.Fatalln(err)
    }

    if i % 100 == 0{
        log.Println(i)
    }
    i++
}

log.Println("Done")

这会遇到与预期相同的超时。

2018/11/12 15:01:20 Collecting data
2018/11/12 15:01:21 0
2018/11/12 15:01:21 100
2018/11/12 15:01:21 200
2018/11/12 15:01:21 300
2018/11/12 15:01:21 400
2018/11/12 15:01:22 500
2018/11/12 15:01:22 600
2018/11/12 15:01:22 700
....
2018/11/12 15:02:22 29800
2018/11/12 15:02:23 29900
2018/11/12 15:02:23 rpc error: code = DeadlineExceeded desc = The datastore operation timed out, or the data was temporarily unavailable.

但除此之外，偏移量工作正常:

snapshotIter := client.Collection(collection.(string)).Offset(30000).Documents(ctx)

最佳答案

在 firebase 支持团队的帮助下，我们发现 python 客户端 api 确实存在错误。下一个版本中有一个错误修正。很可能它将使 python 库能够按 documentid 排序，因此使用 start_after()。

到那时你有两种可能的解决方案:

使用另一个字段进行排序并使用start_after()
使用 node.js 库进行分页，例如:

var db = admin.firestore();
admin.firestore().settings({ timestampsInSnapshots: true });
function readNextPage(lastReadDoc) {
  let query = db
    .collection(collection)
    .orderBy(admin.firestore.FieldPath.documentId())
    .limit(100);
}

关于python - 大集合的 Firestore DeadlineExceeded 异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53226594/

文章推荐： c++ - 命名空间包含会增加exe的大小吗

文章推荐： c - 如何在c中实现定时器？

文章推荐： c - 如何确定 pid_t 的最大值？

文章推荐： linux - 编写持久的 perl 脚本

ios - Firestore.firestore() 失败并显示 "Type ' Firestore' 没有成员 'firestore'“
我正在尝试为我的 Firestore 设置一个数据库，但是我尝试重新安装 pod 和许多其他东西，但我仍然无法让它工作，因为它显示了这个错误: Type 'Firestore' has no memb
google-cloud-firestore - 将 Cloud Firestore 项目迁移到另一个 Cloud Firestore 项目
我需要更改我的项目 ID，因为要验证的 Firebase 身份验证链接在链接上显示了项目 ID，并且由于品牌 reshape ，项目名称已更改。根据我发现的信息，更改项目 ID 似乎不太可能。我正在考
firebase - Firestore (4.10.1) : Could not reach Firestore backend. Cloud Functions 中的 Firestore 访问问题
快速提问。长话短说，我在我的谷歌云功能日志中收到此错误: Firestore (4.10.1):无法到达 Firestore 后端。这是我的函数文件中的代码: // pull in firebas
angular - @firebase/firestore : Firestore (5. 0.4) : Could not reach Cloud Firestore backend. 后端在 10 秒内没有响应
我正在从事 Angular 6 项目。这是我使用 --prod 构建时遇到的错误标记、主持和运行。我已经坐了很长时间了。最初认为这可能是 firestore 包的问题，我等了。但是现在更新到fir
javascript - Cloud Firestore 文档添加给出错误 "Value for argument "数据“不是有效的 Firestore 文档。无法使用 "undefined"作为 Firestore 值”
我正在开发一个 React 项目，这是我的第一个 React 项目。此代码部署成功。但在使用 postman 测试时出现一些错误。我“发布”“createScream”函数的 URL 并发送它。然后我
google-cloud-firestore - Firestore 根据来自不同集合的条件进行规则
我有一个包含两个集合的 Firestore 数据库:用户和锦标赛。用户具有“参与者”角色和“管理员”角色，并在用户文档中由“isParticipant”和“isAdmin” bool 值指示: /us
google-cloud-firestore - Firestore 的离线数据保存限制是多少？
Firebase 数据库根据他们的文档提供了 10 MB 的离线数据库缓存限制，但没有提到的离线数据限制。 Firestore 数据库。 Firestore 的离线数据保存限制是多少？最佳答案根
google-cloud-firestore - Firestore 安全规则正则表达式
我正在尝试评估 string在 Firestore 安全规则基于 matches正则表达式功能我的代码是 username.matches('^(?!\.)(?!_)(?!.*\.$)(?!.*?
google-cloud-firestore - Firestore 唯一索引或唯一约束？
是否可以在 Firestore 中定义具有唯一约束的索引？如果没有，如何在文档字段上强制执行唯一性(不使用文档 ID)？最佳答案是的，这可以通过结合使用两个集合、Firestore 规则和批量写入
Firebase.firestore 与 admin.firestore
我正在学习 GCP，在他们的 Firestore 中，我对 Admin.firestore 和 Firebase.firestore 的区别感到困惑。这是管理员的代码: const admin =
google-cloud-firestore - Firestore 在线规则模拟器因自定义声明而失败
使用带有自定义声明的 firestore 在线安全模拟会导致错误，但它在部署时可以完美运行(同时实际处理真实请求)。错误是: Error: simulator.rules line [5], colu
google-cloud-firestore - Firestore 增量字段值
所以，我知道有一些类似命名的问题，但这是不一样的。我很想知道是否有人可以解释缺少 increment 的原因。哨兵，类似于delete一。据我所知，字段删除与文档更新没有什么不同。意思是，我只能
google-cloud-firestore - Firestore 按偏移量分页
我想创建两个带有分页选项的查询。在第一个记录中，我想获取前十条记录，在第二个记录中，我想获取其他所有记录: .startAt(0) .limit(10) .startAt(9) .limit(null
google-cloud-firestore - Firestore - 什么是最适合我的场景的数据结构？
我正在努力为我的应用寻找最佳架构。我应该使用顶级集合、子集合、数组等吗？设置: 我的应用程序将有许多用户将参与的测验。每个测验都会有多个问题。每个问题都有多个答案，只能选择一个。每个用户只能回
google-cloud-firestore - Firestore - 什么是最适合我的场景的数据结构？
我正在努力为我的应用寻找最佳架构。我应该使用顶级集合、子集合、数组等吗？设置: 我的应用程序将有许多用户将参与的测验。每个测验都会有多个问题。每个问题都有多个答案，只能选择一个。每个用户只能回
google-cloud-firestore - Firestore-一个集合请求中可以检索多少个文档？
我无法在任何地方找到我可以在一个Collection中获得的文档数量的限制。假设我有1,000,000,000个文档...那有可能吗？如果我想把它们全部都拿走，实际上会给我十亿吗？最佳答案可以存储
google-cloud-firestore - Firestore 查询的默认限制是多少？
假设我有一个集合 mycollection有 1,000,000 条记录。此查询将返回多少条记录？ const query = firestore.collection('mycollection'
javascript - Firestore 网络无法到达 Firestore 后端
这是错误消息:@firebase/firestore: Firestore (4.12.1): Could not reach Firestore backend 我正在构建一个网络应用程序，它今天运
google-cloud-firestore - 比较 Firestore 规则中的文档时间戳
我在编写和测试我的 Firestore 规则时遇到了一个奇怪的问题。这是我想要实现的目标: 当应用程序启动时，用户会匿名登录。这用户开始新游戏。我创建了一个基本上只包含时间戳的“ session ”
Firebase - Admin.firestore 与 functions.firestore
我是云函数的新手。我有一些困惑。 admin.firestore 和functions.firestore? admin.database 是实时数据库吗？因此，如果云函数基本上是用 JavaScr

IT王子

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 大集合的 Firestore DeadlineExceeded 异常

朴素的 Python 解决方案

使用 Python 进行分页

通过 node.js 重试

编辑:golang