- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我编写的代码存在一些性能问题。该代码的目的是比较 2 个 csv 文件(一个文件超过 900k 行,另一个文件有 50k ~ 80k 行)。
目标是比较 csv1 和 csv2,并将匹配数据写入第三个 csv。
我的数据是这样的:
CSV1:
address,name,order_no
add1,John,d009
add2,Smith,d019
add3,Mary,d890
.....(900k more rows)
CSV2:
address,hub_id
add3,x345
add4,x310
add1,a109
....(50k ~ 80k more rows)
预期输出:
CSV3:
order_no,hub_id
d890,x345
d009,a109
.....(etc)
我现在正在处理的代码(尽管很简单)确实有效。但是,整个比较和写入的过程需要很长时间才能完成。
任何指针将不胜感激。我可能忽略了一些python函数,可以在比较大数据的情况下使用,因为我刚刚开始学习。
import csv
import time
start_time = time.time()
with open('csv1.csv', newline='', encoding='Latin-1') as masterfile:
reader = csv.DictReader(masterfile)
for row in reader:
with open('csv2.csv', newline='', encoding='Latin-1') as list1:
reader2 = csv.DictReader(list1)
for row2 in reader2:
if row2['address'] == row['address']:
with open('csv3.csv', 'a') as corder:
print(row2['wip'] + ', ' + row['lat'] + ', ' + row['long'], file=corder)
print("--- %s seconds ---" % (time.time() - start_time))
最佳答案
你的算法目前正在做什么:
所有这些步骤都完成了 90 万次以上。
第 2 步,打开较小的文件,应该只执行一次。打开文件并从磁盘加载它是一项开销很大的操作。只需在开始时加载一次并在内存中进行线性搜索(步骤 #3),您就会看到很大的改进。
步骤 #4 也是如此:打开输出文件应该只进行一次。每次关闭时,系统都会将文件刷新到磁盘。这是非常浪费的一步。如果您保持文件打开,输出缓冲数据,直到有足够的数据将一个完整的 block 写入磁盘,这是完成此操作的一种更快的方法。
步骤 #3 可以通过使用正确的数据结构进行大量优化。概率在日常生活中最常见的用途之一是哈希表。它们无处不在,因为它们使查找成为一个恒定时间的操作(与线性搜索不同,线性搜索随输入的大小线性缩放)。哈希表在 Python 的 dict
类中实现。通过创建以 address
为键的 dict
,您可以将处理时间减少到 900k + 80k
的倍数而不是 900k * 80k
。查找algorithmic complexity了解更多。我特别推荐 Steve Skiena 的《算法设计手册》。
最后一步是找到每个文件中地址的交集。有几个选项可用。您可以将两个文件都转换为 dict
并执行类似 set
的键交集,或者您可以将一个文件加载到 dict
中并逐行测试另一个。我强烈推荐后者,将较小的文件作为加载到 dict
中的文件。从算法的角度来看,元素减少 10 倍意味着您可以降低哈希冲突的可能性。这也是成本最低的方法,因为它在较大文件的不相关行上快速失败,而不记录它们。从实际的角度来看,您甚至可能无法直接将较大的文件转换为字典,如果我怀疑它有多个具有相同地址的行。
这是我一直在谈论的内容的实现:
with open('csv2.csv', newline='', encoding='Latin-1') as lookupfile:
lookup = dict(csv.reader(lookupfile))
with open('csv1.csv', newline='', encoding='Latin-1') as masterfile, open('csv3.csv', 'w') as corder:
reader = csv.reader(masterfile)
corder.write('order_no,hub_id\n')
for address, name, order_no in reader:
hub_id = lookup.get(address)
if hub_id is not None:
corder.write(f'{order_no},{hub_id}\n')
如果任何行的长度不正好是两个元素,则表达式 dict(csv.reader(lookupfile))
将失败。例如,空行会使它崩溃。这是因为 dict
的构造函数需要一个可迭代的双元素序列来初始化键值映射。
作为次要优化,我没有使用 csv.DictReader
,因为这需要对每一行进行额外处理。此外,我已经从输出中完全删除了 csv
模块,因为您可以在不添加包装器层的情况下更快地完成工作。如果您的文件格式与您显示的一样整齐,您可能会通过将它们拆分为 ,
自己而不是使用 csv
来获得微小的性能提升。
关于python - 如何优化我的代码以加快处理速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56987868/
我在想出一个算法时遇到了麻烦... 我有一系列 GPS 数据,以 1 秒为间隔记录时间、速度、距离。假设距离是米,速度是米/秒。可能有超过 2 小时的数据,或 7200 个点。这里的“时间”字段主要是
使用java排序器,即: Collections.sort(myArrayList, new Comparator() { @Override public int c
有什么区别吗 SELECT * FROM my_table 和 SELECT my_column_id FROM my_table 地点: my_table 有百万行 网站上有大量并发用户进行sql查
有2个样本。 在第一个示例中,使用 orderby 可以更快地获得结果。 (根据 phpmyadmin 速度报告) 在另一个例子中,我没有使用 order by,它给出的结果较慢。 (根据 phpmy
我注意到,如果我将训练数据加载到内存中并将其作为 numpy 数组提供到图中,与使用相同大小的 shuffle 批次相比,速度会有很大差异,我的数据有大约 1000 个实例。 使用内存 1000 次迭
我在 python 中使用破折号。我正在绘制记录到 SQLite 数据库中的实时数据,目前,我正在绘制单个值与时间线图。我计划再添加 20 个图表,但目前,随着时间的增加, plotly 变慢,我认为
我试图调用 hasNext Velocity 模板中的方法,以便根据 foreach 循环中的位置影响行为 - 仅 hasNext没有按照文档工作。 这是 Velocity 用户指南的片段,关于 ha
在我正在制作的游戏中,我有两个点,pt1 和 pt2,我想计算出它们之间的角度。我已经在较早的计算中计算出距离。显而易见的方法是对垂直距离上的水平距离进行反正切 (tan(theta) = opp/a
我经常遇到字符串值不存在和/或为空的情况。这是测试这种情况的最佳方法吗? #if( $incentive.disclaimer && $!incentive.disclaimer != '' )
我想将一个模板nested包含在其他模板cont1,cont2和cont3中。 并且嵌套模板应仅对cont1隐藏一个特定控件。 在包含在cont1中之前,我想为一些标志变量$hideMyControl
是否可以更改从“Windows Azure Media Encoder”输出的音频的播放速度? 我正在使用配置为“WMA High Quality Audio”的“Windows Azure Medi
我使用速度将String(template)与字段合并 hi there I'am ${name}, And I'am ${age} old. velocity将字段${name}和${age}与一种
我使用的是 LockedBitmap 类,它简化了 C# 中位图数据的处理。目前它正在将数据复制到本地 byte[] 数组中,然后通过其类方法访问该数组以获取/设置像素颜色值。 这比直接通过指针访问锁
我尝试在 VM_global_library.vm 文件中添加一堆 #set($x=abc) 语句,但这些变量在我的 VM 模板中不可用。 我想为图像的基本路径等设置一个全局变量。这可能吗? 最佳答案
我的项目结构: -src --main ---java ----makers -----SomeClass ---resources ----htmlPattern.vm 如何告诉 SomeClass
我正在尝试从 Velocity 中的字符串中删除不需要的字符(换行符可以,但不能像 EM 和 CAN ASCII 控制字符那样)。 #set($cleanScreen = $cleanScreen.r
我想在日.月.年之间的点处分割日期。例如:2015 年 1 月 14 日至 {14, 01, 2015}这是我使用的代码:dates3.get(0) 包含我从页面的文本字段获取的字符串“14.01.2
之后,从 1.5 升级到速度引擎 1.7 出现了 1.5 没有的问题。为了解释这个问题,我必须展示一个代码片段: #foreach($someVariable in $someCollection)
我想知道从表中选择所有字段是否更快: SELECT * 或只选择您真正需要的: SELECT field1, field2, field3, field4, field5... 假设表有大约 10 个
我正在尝试模仿照片应用程序的行为,在该应用程序中,用户用手指平移照片并且照片具有一定的速度。由于我不会深入的原因,我不能将 UIScrollView 与它的缩放 UIImageView 一起使用,而是
我是一名优秀的程序员,十分优秀!