- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
所以我有下面这组代码解析好吃的信息。它以下列格式从 Delicious 页面打印数据
书签 |人数
书签 |人数等等……
我曾经使用以下方法来查找此信息。
def extract (soup):
links = soup.findAll('a',rel='nofollow')
for link in links:
print >> outfile, link['href']
hits = soup.findAll('span', attrs={'class': 'delNavCount'})
for hit in hits:
print >> outfile, hit.contents
#File to export data to
outfile = open("output.txt", "w")
#Browser Agent
br = Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
url= "http://www.delicious.com/asd"
page = br.open(url)
html = page.read()
soup = BeautifulSoup(html)
extract(soup)
但问题是有些书签没有人数,所以我决定不同地解析它,这样我就可以并发获取数据并将书签和人数并排打印出来。
编辑:使用此更新版本从 15 到 5 秒内完成,还有更多建议
def extract (soup):
bookmarkset = soup.findAll('div', 'data')
for bookmark in bookmarkset:
link = bookmark.find('a',)
vote = bookmark.find('span', 'delNavCount')
try:
print >> outfile, link['href'], " | " ,vote.contents
except:
print >> outfile, "[u'0']"
#print bookmarkset
#File to export data to
outfile = open("output.txt", "w")
#Browser Agent
br = Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
url= "http://www.delicious.com/asd"
page = br.open(url)
html = page.read()
soup = BeautifulSoup(html)
extract(soup)
虽然这方面的性能很糟糕,解析第一页需要 17 秒,而在相当不错的机器上解析此后大约需要 15 秒。从第一位代码到第二位代码时,它的性能明显下降。我可以做些什么来提高性能吗?
最佳答案
我不明白你为什么分配给vote
– 两次。第一个赋值是不必要的,而且确实非常繁重,因为它必须在每次迭代时解析整个文档。为什么?
vote = BeautifulSoup(html)
vote = bookmark.findAll('span', attrs={'class': 'delNavCount'})
关于python - 改善 BeautifulSoup 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4481424/
我有一个 recycleView Activity ,这是我应该在设计中展示的内容 我用这段代码来展示它 val arr:ArrayList = arrayListOf("English","
我目前正在运行 Ubuntu 12.04LTS,nginx 发出请求。 我通过谷歌页面速度( https://developers.google.com/speed/pagespeed/insight
我有以下字符串作为键。从下面的代码中,我看到所有的键都指向同一个 reducer ,尽管有很多 reducer 。最后,同一个 reducer 重载。我想,每个键(字符串),去一个不同的 reduce
假设我有一个 flexbox,为了举例,每个元素都包含一个图像。在这种情况下,flexbox 的目的是将它们均匀分布。 看起来很简单。让我们试试吧。 #flex { width: 350px;
我正在从事基于视频车牌检测的项目。 它是这样的: 当我想在车牌上使用 OCR 时,我的问题就出现了。我在一些图片上对其进行了测试,效果非常好。这是一些例子: 但是当我把检测到的盘子放上去时,结果很糟糕
所以我有下面这组代码解析好吃的信息。它以下列格式从 Delicious 页面打印数据 书签 |人数 书签 |人数等等…… 我曾经使用以下方法来查找此信息。 def extract (soup):
我想为组特征(std、mean...)添加一些列,下面的代码有效,但数据集真的很大而且性能很差。有改进代码的好主意吗?谢谢 import pandas as pd df = pd.DataFrame(
我正在使用 new relic 来诊断和修复我们数据库的性能问题。所以我有以下最耗时的查询。 SELECT * FROM `page_view` WHERE `ip_address` = ?s A
我的公司使用 UIWebView 来展示广告。我遇到的问题是初始化 UIWebView 似乎很昂贵;使用 Time Profiler 进行的分析显示 [UIWebView alloc] initWit
如何让下面的代码更优雅?目前我必须手动添加每个条件。有没有一种方法可以检查 $total_points 的值是否位于数组 $ranking_list 的连续项之间? function ym_rank(
g++ 有时会产生相当复杂的输出。特别是在处理模板时。是否有任何工具可以使 g++ 输出更具可读性? ...至少有一些颜色? 在这里问这个问题可能听起来很傻,但我无法通过谷歌搜索。 最佳答案 从 4.
我有一个 API,它登录一个帐户,然后对我想通过 CFHTTP 请求出价的项目执行搜索,如下所示。 搜索.cfm: 登录.cfm:
我有一个包含超过一百万条记录的表,其结构如下: mysql> SELECT * FROM Measurement; +----------------+---------+--------------
使用 trainCascade 训练类似 HAAR 的特征。向社区寻求建议以获得更好的结果。一般来说,什么被认为是好的接受率? 我从一个较小的培训开始,遵循此链接作为指南:http://coding-
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 10 年前。 Improve thi
我们从 JBoss 4(和 JDK 5)升级到 JBoss 5(和 JDK 6)。问题是开始时间已经从 1.5 分钟(在 JBoss 4 上)变为超过 4 分钟。 18:53:35,444 INFO
这是 a previous question on improving rails console loading time 的后续内容。 . 第一个很好的建议是找出 which gems take
我想知道以下哪一项会为加载大量 javascript(jQuery + jQuery UI + 各种其他 javascript 文件)的页面带来更好的性能。我已经浏览了大部分 YSlow 和 Goog
我正在使用多个 setInterval() 例如创建、移动、删除落在屏幕上的字符串 问题是 MODE 1 间隔导致 interval1 出现滞后 我也尝试过切换到MODE 2 STUFF,但仍然出现延
我是一名优秀的程序员,十分优秀!