python - pymongo 需要超过 24 小时才能循环遍历 20 万条记录-6ren

python - pymongo 需要超过 24 小时才能循环遍历 20 万条记录

转载作者：可可西里更新时间：2023-11-01 09:46:32

24

4

我在数据库中有两个集合 page和 pagearchive我正在尝试清理。我注意到在 pagearchive 中创建了新文档而不是按预期向嵌入式文档添加值。所以基本上这个脚本所做的是遍历 page 中的每个文档。然后在 pagearchive 中找到该文档的所有副本并将我想要的数据移动到一个文档中并删除了额外的内容。

问题是 pagearchive 中只有 200K 个文档根据我在底部打印的计数变量，迭代 1000 条记录需要 30 分钟到 60 分钟以上的时间。这非常慢。我见过的重复文档中最大的计数是 88。但在大多数情况下，当我在 pageArchive 中查询时在 uu ，我看到 1-2 个重复文档。

mongodb 在具有 16GB RAM 的单实例 64 位机器上。 uu在 pageArchive 上迭代的键集合是一个字符串。我确保该字段上有一个索引 db.pagearchive.ensureIndex({uu:1})我也做了 mongod --repair很好的衡量标准。

我猜问题出在我草率的 python 代码(不是很擅长)，或者可能是我遗漏了 mongodb 所必需的东西。为什么它会这么慢，或者我可以做些什么来显着加快它的速度？

我想可能是因为 uu field 是一个字符串，它导致了瓶颈，但这是文档中的唯一属性(或者一旦我清理了这个集合就会是)。最重要的是，当我停止进程并重新启动它时，它每秒可以加速约 1000 条记录。直到它开始再次在集合中找到重复项，然后它再次变慢(每 10-20 分钟删除大约 100 条记录)

from pymongo import Connection
import datetime


def match_dates(old, new):
    if old['coll_at'].month == new['coll_at'].month and old['coll_at'].day == new['coll_at'].day and old['coll_at'].year == new['coll_at'].year:
        return False

    return new

connection = Connection('dashboard.dev')


db = connection['mydb']

pageArchive = db['pagearchive']
pages = db['page']

count = 0
for page in pages.find(timeout=False):

    archive_keep = None
    ids_to_delete = []
    for archive in pageArchive.find({"uu" : page['uu']}):

        if archive_keep == None:
            #this is the first record we found, so we will store data from duplicate records with this one; delete the rest
            archive_keep = archive
        else:
            for attr in archive_keep.keys():
                #make sure we are dealing with an embedded document field
                if isinstance(archive_keep[attr], basestring) or attr == 'updated_at':
                    continue
                else:
                    try:
                        if len(archive_keep[attr]) == 0:
                            continue
                    except TypeError:
                        continue
                    try:
                        #We've got our first embedded doc from a property to compare against
                        for obj in archive_keep[attr]:
                            if archive['_id'] not in ids_to_delete:
                                ids_to_delete.append(archive['_id'])
                            #loop through secondary archive doc (comparing against the archive keep)
                            for attr_old in archive.keys():
                                #make sure we are dealing with an embedded document field
                                if isinstance(archive[attr_old], basestring) or attr_old == 'updated_at':
                                    continue
                                else:
                                    try:
                                        #now we know we're dealing with a list, make sure it has data
                                        if len(archive[attr_old]) == 0:
                                            continue
                                    except TypeError:
                                        continue
                                    if attr == attr_old:
                                        #document prop. match; loop through embedded document array and make sure data wasn't collected on the same day
                                        for obj2 in archive[attr_old]:
                                            new_obj = match_dates(obj, obj2)
                                            if new_obj != False:
                                                archive_keep[attr].append(new_obj)
                    except TypeError, te:
                        'not iterable'
        pageArchive.update({
                            '_id':archive_keep['_id']}, 
                           {"$set": archive_keep}, 
                           upsert=False)
        for mongoId in ids_to_delete:
            pageArchive.remove({'_id':mongoId})
        count += 1
        if count % 100 == 0:
            print str(datetime.datetime.now()) + ' ### ' + str(count)

最佳答案

我将对代码进行以下更改:

在 match_dates 中返回 None 而不是 False 并执行 if new_obj is not None: 它将检查引用，而不调用对象 __ne__ 或 __nonzero__。
for page in pages.find(timeout=False): 如果只使用uu键并且页面很大，fields=[' uu'] find 的参数应该可以加速查询。
archive_keep == None 到 archive_keep is None
archive_keep[attr] 被调用了 4 次。保存 keep_obj = archive_keep[attr] 然后使用 keep_obj 会快一点。
将 ids_to_delete = [] 更改为 ids_to_delete = set()。然后 if archive['_id'] not in ids_to_delete: 将是 O(1)

关于python - pymongo 需要超过 24 小时才能循环遍历 20 万条记录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9241216/

24

4

0

文章推荐： windows - Inno Setup 脚本中的基本 IP 验证

文章推荐： c# - 为什么我的伪造按钮按下失败并显示 SendMessage？

超过 Youtube 视频上传限制
我使用这个 cmd 应用程序 https://github.com/tokland/youtube-upload 上传 50 个视频后，我收到此错误: [RequestError] Server re
超过 Docker 最大深度
尝试将 docker 容器提交到镜像时出现错误: [root@dockerregistry /]# docker commit da4180ab1536 dockerregistry:5000/myi
c - 优先规则==超过=
我只是想知道这样做会更好吗: if((fd = open(filename, O_RDWR)) == -1) { fprintf(stderr, "open [ %s ]\n", strerror(e
elasticsearch - 低磁盘水印 [??%] 超过
我在我的开发机器(单个笔记本)中使用 Elasticsearch 1.4.4。一切都设置为默认值，因为我从未更改过任何设置。当我启动它时，我通常会收到以下消息: [2015-10-27 09:38:
超过 MySQL 锁等待超时
我收到错误 Lock wait timeout exceeded;尝试重新启动事务。这是什么原因，如何解决？仅供引用:MySQL 配置文件中的 innodb_lock_wait_timeout = 1
超过 2 列的松弛 block
我对 Slack 中的 block 功能有疑问。有人设法构建 3 列而不是 2 列吗？我凭直觉尝试了以下代码，但它不起作用: { "blocks": [ {
html - 固定尺寸 DIV 超过
div 中的内容超过由 css 决定的固定大小。 #fixeddiv { position: fixed; margin: auto; max-height: 300px
android - 超过 EditText 限制时提醒用户
我想将 EditText 字段限制为 150 个字符，我可以很容易地做到这一点。但是，当用户试图超过该限制时，我还需要通过键入(即第 151 个字符)或粘贴超过 150 个字符来提醒用户。解决这个问
FFmpeg 超过 1000 帧重复且输入高度不匹配
我目前正在使用此代码并排记录两个窗口: ffmpeg -f gdigrab -framerate 30 -i title="" -f gdigrab -framerate 30 -i title=""
excel - 超过 64 个嵌套限制的复杂替换
我在几个包含长字符串的单元格上使用嵌套的 SUBSTITUE 函数，并定期更新 SUBSTITUE fx，这导致我将其复制并粘贴到所有需要它的单元格中。问题是，我的 SUBSTITUTE 列表会随着时
css - 超过 div 大小的图像
我创建了一个标题 div，如下所示:
adsense - 超过 9 个就看不到谷歌广告
Here is the demo link 您怎么看，页面中只有 8 个广告可见，但我有 14 个广告。我已阅读有关广告限制的信息 here但不明白是不是我的情况？有人可以给我确切的答案，为什么我看不
c - 超过 50 万个元素的快速排序崩溃
我的非常简单的算法 - C 中的快速排序有问题。它非常有效(随机化大约 0.1 秒并检查列表是否已排序)但是当我想要对超过 500k 的元素进行排序时它会崩溃。不幸的是，我需要对它们进行更多排序，因为
c++ - 超过 Hackerrank 的时间限制
我成功解决了一个关于 Hackerrank 的问题，它通过了所有测试用例，但我得到了一个错误，超过了时间限制。我猜如果我优化我的代码它会工作，但我想不出任何方法来使我的代码更有效率。问题是: 对大小
vim - 超过 1 个字符的环绕视觉文本
你会如何用包围下面的文字3 个反引号 ```使用 tpope 的 Vim Surround . 我所能做的就是 1 个反引号使用 S`在视觉模式下: 最佳答案这不是你问的，但这可以在没有环绕的情
elasticsearch - 超过 SwifType 速率限制
我目前有一个模拟账户。我正在尝试为我的雇主使用 SwifType 制作 POC。我们有一个非常大的数据库，每 1 小时索引一次，并创建一个 JSON 文件。我认为与 Elastic 的集成将非常容易，
c# - 超过 SMTP 限制发送电子邮件
我为一个大约有 100 到 120 名成员的小型组织维护网站。每个月，我们都会发送一封电子邮件，通知我们的成员我们将在即将举行的 session 中讨论的主题。我正在尝试使用我们的网站为我们提供一
vba - 超过 255 个字符的数组公式
这个问题已经有答案了: How to automatically input an array formula as string with more than 255 characters in l
java - 超过 FileSizeMax 时取消文件上传
我有一个在 JBoss 6.1 中运行的 JSF 应用程序，它使用内部Tomcat Servlet 容器。我已经通过apache commons文件上传实现了上传。我想防止上传过大的文件并设置了属性
mysql - 超过 PyMYSQL 锁等待超时
当我尝试在 PyMySQL 上执行查询时，出现以下错误: pymysql.err.InternalError: (1205, 'Lock wait timeout exceeded; try rest

首页

博学

6Ren·AI

商城

python - pymongo 需要超过 24 小时才能循环遍历 20 万条记录