Python - 关于运行时间和内存使用的可扩展性很重要-6ren

Python - 关于运行时间和内存使用的可扩展性很重要

转载作者：太空宇宙更新时间：2023-11-04 02:05:05

26

4

我有 python 脚本来过滤 csv 文件中的大量数据。该要求要求考虑运行时间和内存使用方面的可伸缩性。

我写了 2 个脚本，它们都可以很好地过滤数据。关于可伸缩性，我决定使用 python 生成器，因为它使用迭代器并且不会在内存中保存太多数据。

当我比较2个脚本的运行时间时，我发现如下:

脚本 1 - 使用生成器 - 需要更多时间 - 0.0155925750732s

def each_sentence(text):
    match = re.match(r'[0-9]+', text)
    num = int(text[match.start():match.end()])
    if sympy.isprime(num) == False:
        yield text.strip()

with open("./file_testing.csv") as csvfile:
    for line in csvfile:
        for text in each_sentence(line):
            print(text)

脚本 2 - 使用拆分且不使用生成器 - 花费更少的时间 - 0.00619888305664

with open("./file_testing.csv") as csvfile:
for line in csvfile:
    array = line.split(',')
    num = int(array[0])
    if sympy.isprime(num) == False:
        print line.strip()

为了满足要求，我需要使用python生成器吗？或任何建议或建议？

最佳答案

To meet the requirement, do I need to use python generator?

不，你不知道。脚本 1 没有意义。生成器总是执行一次并在第一次迭代中返回一个结果。

Any suggestions or recommendations?

您需要了解三件事:复杂性、并行化和缓存。

复杂性基本上意味着“如果我将输入数据(csv 文件)的大小加倍，我需要两倍的时间吗？还是四倍？还是什么”？
并行化意味着以一种易于添加更多资源来解决问题的方式来解决问题。
缓存很重要。如果您不必一直重新创建所有内容，事情就会变得更快，但您可以重复使用已经生成的内容。

主循环 for line in csvfile: 已经很好地扩展了，除非 csv 文件包含极长的行。

脚本 2 包含一个错误:如果一行中的第一个单元格不是整数，则 int(array[0]) 将引发值错误。

isprime 函数可能是您代码中的“热点”，因此您可以尝试将其与多个线程或子进程并行化。

关于Python - 关于运行时间和内存使用的可扩展性很重要，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54898018/

26

4

0

文章推荐： html - 将图像定位在 svg 元素的右下方

文章推荐： c - getc 和 fscanf 之间的区别

文章推荐： node.js - meern-cli 安装失败

文章推荐： c - 本身具有依赖性的静态库上的 AC_SEARCH_LIBS？

IIS 可扩展性
我最近的任务是估计 IIS 可以处理的并发用户数。不幸的是，我对 IIS 的经验为 0，所以我希望有人能指导我去哪里寻找。我希望在这个阶段我不必做我自己的基准测试。我想知道它可以处理的并发连接数是多
MSMQ 可扩展性
我们正在考虑建立一个具有约 8000 个客户端和每个客户端一个队列的 MSMQ 系统。平均而言，系统每天需要处理来自每个客户端的约 2000 条消息，其中消息大小范围从 1K 到 MSMQ 最大大小
scalability - DotNetNuke 可扩展性
我们即将从一个内容丰富的网站开始，我们正在考虑使用 Dotnetnuke。与联合国网站(http://www.un.org/en/index.shtml)相比，该网站将是多语言的问题是:DotNe
c# - DB4O 可扩展性
我正在寻找有关 DB4O 对象数据库的信息。我知道它有客户端/服务器模式，但我不知道它的可扩展性如何。我非常喜欢对象数据库的想法，但仍然找不到合适的 OODB 用于我的任何项目。所以我的问题是: 我想
mysql - Sphinx 可扩展性
我目前使用 Sphinx Search 来优化我们的搜索页面。该网站越来越受欢迎，这给 Sphinx 带来了更多负载。虽然此时没有什么可担心的，但我想知道 Sphinx 是如何扩展的。我在他们的网站
tomcat 可扩展性 ejb
我对具有 OpenEJB 水平可扩展性配置的 Tomcat 感兴趣，以及它将如何管理分布式无状态 ejb:在每次调用时，是否可以从另一个 tomcat 服务器分配一个实例，例如在应用程序服务器中 -
Mysql、SQLite、可扩展性
SQLite 可以替代高流量网站中的 mysql 吗？谢谢最佳答案 SQLite usually will work great as the database engine for low to
ios - Firebase 可扩展性
我想开发一个 iOS 应用程序，您可以在其中找到附近的人并与他们聊天。但是，我不知道 firebase 如何处理大量数据。例子:所以，如果应用程序有 10 万用户。而且他们中的很多人总是在聊天，搜索
.net - CQRS + EventSourcing 可扩展性
我正在尝试在我的新项目中使用 CQRS 和 EventSorcing。我正在遵循 Greg Young 几年前建议的方式(Mark Nijhof 实现 - http://cre8ivethought.
ASP.NET SqlMembershipProvider 可扩展性
我有一个即将开展的项目，将与 70,000 多个用户(教育)打交道。我想知道 ASP.NET SqlMembership Provider 是否已经以如此大的容量使用过？假设硬件在那里，是否需要做一些
performance - Kafka + Spark 可扩展性
我们有非常简单的 Spark Streaming 作业(用 Java 实现)，它是: 通过 DirectStream 从 Kafka 读取 JSON(关闭 Kafka 消息的确认) 将 JSON 解析
machine-learning - tensorflow 可扩展性
我正在使用tensorflow来训练DNN，我的网络结构非常简单，当只有一个参数服务器和一个worker时，每个minibatch大约需要50ms。为了处理巨大的样本，我使用分布式ASGD训练，但是，
Java SaaS 架构 - 可扩展性
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
java - 提高Crawler4j-Crawler效率、可扩展性
我正在使用 Crawler4j 爬虫来爬取一些域。现在我想提高爬虫的效率，我希望我的爬虫使用我的全部带宽并在给定时间段内爬取尽可能多的 url。为此我采用以下设置:- 我增加了编号。爬虫线程数到 10
c# - NUnit 可扩展性 - 获取失败消息
我一直在寻找在 NUnit 中获取错误消息的方法。到目前为止，我找到了一些使用 IAddin 和 EventListener 来获取消息的类，但是没有用。我将此代码基于以下链接: About exte
php - 测试网站的负载、压力、可扩展性
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以
c++ - Poco SocketReactor 可扩展性
我已经使用 Poco 为 Linux 编写了一个代理服务器，但此后一直在阅读实现 TCP/IP 服务器可伸缩性的各种方法。我将需要服务器处理持久连接(不是 HTTP 流量)，上限为大约 250 个同时
sql - SSMS 可扩展性/插件 - 获取当前数据库和服务器
我正在尝试为自定义审计要求编写一个 SSMS 插件(需要审计用户在生产环境中运行的所有查询)。我有位于适当文件夹中的 .addin 文件，它在我的 Connect.Exec 方法中命中断点，我能够从事
apache-spark - Spark 可扩展性 : what am I doing wrong?
我正在用 spark 处理数据，它可以处理一天的数据(40G)，但失败了 OOM 一周的数据: import pyspark import datetime import operator sc =
node.js - 使用无服务器框架关注 AWS 可扩展性
当我将无服务器框架代码库部署到 AWS 时，我很好奇哪种方法会更好。目前，有两种选择。使用 Nest.js 或 Express.js，因此我将一个函数部署到 Lambda，该函数将处理所有 API

首页

博学

6Ren·AI

商城

Python - 关于运行时间和内存使用的可扩展性很重要