- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在运行一个脚本,该脚本下载其中包含 html 标签的 xls 文件并将其删除以创建一个干净的 csv 文件。
代码:
#!/usr/bin/env python
from bs4 import BeautifulSoup
from urllib2 import urlopen
import csv
import sys
#from pympler.asizeof import asizeof
from pympler import muppy
from pympler import summary
f = urlopen('http://localhost/Classes/sample.xls') #This is 75KB
#f = urlopen('http://supplier.com/xmlfeed/products.xls') #This is 75MB
soup = BeautifulSoup(f)
stable = soup.find('table')
print 'table found'
rows = []
for row in stable.find_all('tr'):
rows.append([val.text.encode('utf8') for val in row.find_all('th')])
rows.append([val.text.encode('utf8') for val in row.find_all('td')])
#print sys.getsizeof(rows)
#print asizeof(rows)
print 'row list created'
soup.decompose()
print 'soup decomposed'
f.close()
print 'file closed'
with open('output_file.csv', 'wb') as file:
writer = csv.writer(file)
print 'writer started'
#writer.writerow(headers)
writer.writerows(row for row in rows if row)
all_objects = muppy.get_objects()
sum1 = summary.summarize(all_objects)
summary.print_(sum1)
上面的代码对于 75KB 文件完美工作,但是对于 75MB 文件,进程被终止,没有任何错误。
我对 beautiful soup 和 python 很陌生,请帮我找出问题所在。该脚本在 3GB RAM 上运行。
小文件的输出是:
table found
row list created
soup decomposed
file closed
writer started
types | # objects | total size
===================================== | =========== | ============
dict | 5615 | 4.56 MB
str | 8457 | 713.23 KB
list | 3525 | 375.51 KB
<class 'bs4.element.NavigableString | 1810 | 335.76 KB
code | 1874 | 234.25 KB
<class 'bs4.element.Tag | 3097 | 193.56 KB
unicode | 3102 | 182.65 KB
type | 137 | 120.95 KB
wrapper_descriptor | 1060 | 82.81 KB
builtin_function_or_method | 718 | 50.48 KB
method_descriptor | 580 | 40.78 KB
weakref | 416 | 35.75 KB
set | 137 | 35.04 KB
tuple | 431 | 31.56 KB
<class 'abc.ABCMeta | 20 | 17.66 KB
我不明白什么是“dict”,75KB 文件需要更多内存。
谢谢,
最佳答案
如果没有实际的文件可供使用,很难说,但您可以做的是避免创建中间行列表并直接写入打开的 csv
文件。
此外,您还可以让 BeautifulSoup
使用 lxml.html
在引擎盖下(应该安装lxml
)。
改进的代码:
#!/usr/bin/env python
from urllib2 import urlopen
import csv
from bs4 import BeautifulSoup
f = urlopen('http://localhost/Classes/sample.xls')
soup = BeautifulSoup(f, 'lxml')
with open('output_file.csv', 'wb') as file:
writer = csv.writer(file)
for row in soup.select('table tr'):
writer.writerows(val.text.encode('utf8') for val in row.find_all('th') if val)
writer.writerows(val.text.encode('utf8') for val in row.find_all('td') if val)
soup.decompose()
f.close()
关于Python 脚本被无错误地杀死,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27762196/
如何在终止父进程时关闭我的子文件描述符? 我创建了一个执行以下操作的程序: 派生 2 个子进程。 进程 1 是一个读取器。它从 STDIN_FILENO 读取并使用 scanf/printf 写入 S
我试着写了一个小的暴力破解程序。密码程序在密码正确时返回 1,错误时返回 0。所以它很简单。 在 bruteforce 程序中,我使用 createprocess() 调用 pw 程序。 我的问题是,
谁能帮我解释一下我从一本书中得到的这个脚本。练习是编写一个名为 killalljobs 的脚本来终止所有后台作业。 为此给出的代码是: kill "$@" $( jobs -p) 我确定我在这里真
我正在开发一个包含许多库的应用程序。后来我注意到有几次应用程序进程在关闭应用程序后仍在耗尽 CPU。 我先终止了进程,但它继续运行。我卸载了该应用程序 - 但它仍然存在! (使用开发人员选项中的“显示
有没有办法在无人机完成或超时之前杀死它? 无人机的默认超时时间为 6 小时 ( https://github.com/drone/drone/blob/master/cmd/drone/drone.g
我有几个自动启动的菜单栏程序/进程/应用程序。我希望能够使用单个命令或脚本将它们全部关闭;有时带宽受到限制或受限,它们会导致(或至少导致)旋转的沙滩球死亡。目前,我手动关闭每一个。 关注 answer
当我阅读 learnyousomeerlang.com 上的一篇文章时,我有一个问题。 http://learnyousomeerlang.com/errors-and-processes 它说: E
有什么方法可以通过 OpenCL API 终止正在运行的 OpenCL 内核吗?我没有在规范中找到任何内容。 我能想出的唯一解决方案是 1) 定期检查内核中的标志,当主机希望内核停止时写入该标志,或
我已经对套接字(使用fsockopen()和stream_socket_client())和cURL进行了一些测试,以强制关闭连接(TCP/HTTP)。但是,没有运气。 无论我使用的是1毫秒的超时时间
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭10 年前。 Improve th
我以不太优雅的方式杀死了 IRB 提示符(从 heroku run irb 开始),现在我有一个僵尸进程,但我似乎无法杀死它: Process State Co
致kill background process inside Codeship我们需要使用以下命令: #!/bin/bash nohup bash -c "YOUR_COMMAND 2>&1 &"
我第一次在这里发帖,因为我在互联网上找不到干净的解决方案。 我的目标很简单,我需要创建 一个 后台操作 (goroutine 或进程或其他...)我可以 正确杀死 (不要留在后台)。 我尝试了很多事情
我有一个进程调用: p=multiprocessing.Process(target=func_a) 然后func_a启动一个子进程: subprocess.Popen(["nc", "-l", "-
我正在运行一个基本上运行一堆服务器以进行本地测试的脚本。 这些 jar 在不同的 screen 中运行,因为它们需要独立地接受键盘输入。为此,我使用了 screen 。 command1="java
我有一个用 java 编写的应用程序,它在 Unix 上运行,并在启动时启动两个子进程(通过 Runtime.getRuntime().exec())。如果应用程序由于某种原因崩溃,子进程不会被终止。
我想要像 Pushbullet、SmartLockScreen 或 WhatsApp 那样独立运行的服务,它正在等待某个事件的发生。我已经尝试过前台服务,在 onStartCommand 中返回 ST
强制停止应用程序后,是否可以在 Android 应用程序中获取位置更新。在 IOS 中,如果我们强制停止应用程序,则有可能获得位置更新,以类似的方式,是否有任何服务可以为在 android 中被杀死的
我正在调查是否有任何方法可以防止 android 服务因未捕获的异常而被杀死。 我们有 10 个 UI 应用程序与 5-6 个服务通信。该平台是Android 2.2。 由于不可预见的情况,服务中的某
我刚刚将我的 javascript 转移到 jQuery 来实现简单的 AJAX 功能。不过,我尝试将灯箱插件与 jQuery 结合使用,因为我想保留相同的功能,但不想包含 10 个不同的库。如果我删
我是一名优秀的程序员,十分优秀!