- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在将一个 csv 文件读入 python 列表的列表中。现在大约是 100mb。几年后,该文件将达到 2-5gigs。我正在对数据进行大量对数计算。 100mb 的文件需要大约 1 分钟的时间来完成脚本。在脚本对数据进行了大量操作之后,它会创建指向谷歌图表的 URL,然后将图表下载到本地。
我可以继续在 2gig 文件上使用 python 还是应该将数据移动到数据库中?
最佳答案
我不知道你在做什么。但是数据库只会改变数据的存储方式。事实上,这可能需要更长的时间,因为大多数合理的数据库可能会对列施加约束,并对检查进行额外处理。在许多情况下,将整个文件放在本地,通过并进行计算比查询并将其写回数据库更有效(受磁盘速度、网络和数据库争用等影响)。但在某些情况下,数据库可能会加快处理速度,尤其是因为如果您进行索引,则很容易获得数据的子集。
不管怎样,你提到了日志,所以在你对数据库着迷之前,我有以下想法供你检查。无论如何,我不确定您是否必须从开始下载图表时就一直浏览每条日志,并且您希望它增长到 2 GB,或者最终您是否希望每天/每周有 2 GB 的流量。
归档 -- 您可以归档旧日志,比如每隔几个月归档一次。将生产日志复制到存档位置并清除事件日志。这将使文件大小保持合理。如果您浪费时间访问文件来查找您需要的小片段,那么这将解决您的问题。
您可能需要考虑转换为 Java 或 C。尤其是在循环和计算方面,您可能会看到 30 倍或更多的加速。这可能会立即减少时间。但随着时间的推移,随着数据的增加,总有一天这也会放缓。如果你对数据量没有限制,最终即使是世界上最伟大的程序员手工优化的汇编也会太慢。但它可能会给你 10 倍的时间......
您可能还需要考虑找出瓶颈(是磁盘访问,还是 CPU 时间),并在此基础上找出并行执行此任务的方案。如果它正在处理,请查看多线程(最终是多台计算机),如果是磁盘访问,请考虑在多台机器之间拆分文件......这真的取决于你的情况。但我怀疑归档可能会消除这里的需求。
正如建议的那样,如果您一遍又一遍地进行相同的计算,那么只需存储它们即可。无论您使用数据库还是文件,这都会给您带来巨大的加速。
如果您正在下载东西并且这是一个瓶颈,请查看使用 if 修改请求的条件获取。然后只下载更改的项目。如果您只是处理新图表,请忽略此建议。
哦,如果您正在按顺序读取一个巨大的日志文件,逐行查找日志中的特定位置,只需创建另一个文件来存储您使用的最后一个文件位置,然后在每次运行时执行一次查找。
说起整个数据库,大家可能会想到SQLite。
最后,“几年”对于程序员来说似乎是一段很长的时间。即使只有 2 个,也可以改变很多。也许你的部门/部门会被裁员。也许你和你的老板会继续前进。也许系统会被别的东西取代。也许将不再需要您正在做的事情。如果是 6 个月,我会说修复它。但几年来,在大多数情况下,我会说只使用你现在拥有的解决方案,一旦它变得太慢,然后再考虑做其他事情。你可以在代码中发表评论,表达你对这个问题的想法,甚至可以给你的老板发一封电子邮件,让他也知道。但只要它有效并且会在合理的时间内继续这样做,我就认为它现在“完成”了。无论您选择哪种解决方案,如果数据无限增长,您将需要重新考虑。添加更多机器、更多磁盘空间、新算法/系统/开发。用“几年”时间解决它可能已经很不错了。
关于 python 或数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3419624/
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!