- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我注意到一个非常烦人的错误:BeautifulSoup4(包:bs4
)经常发现比以前版本(包:BeautifulSoup
)更少的标签。
这是该问题的一个可重现的实例:
import requests
import bs4
import BeautifulSoup
r = requests.get('http://wordpress.org/download/release-archive/')
s4 = bs4.BeautifulSoup(r.text)
s3 = BeautifulSoup.BeautifulSoup(r.text)
print 'With BeautifulSoup 4 : {}'.format(len(s4.findAll('a')))
print 'With BeautifulSoup 3 : {}'.format(len(s3.findAll('a')))
输出:
With BeautifulSoup 4 : 557
With BeautifulSoup 3 : 1701
如您所见,差异并不小。
以下是模块的确切版本,以防有人想知道:
In [20]: bs4.__version__
Out[20]: '4.2.1'
In [21]: BeautifulSoup.__version__
Out[21]: '3.2.1'
最佳答案
您已经安装了 lxml
,这意味着 BeautifulSoup 4 将使用该解析器而不是标准库 html.parser
选项。
您可以将 lxml 升级到 3.2.1(对我来说,它会为您的测试页返回 1701 个结果); lxml 本身使用了 libxml2 和 libxslt ,这也可能是罪魁祸首。您可能还必须升级那些。请参阅lxml requirements page ;目前推荐使用 libxml2 2.7.8 或更高版本。
或者在解析 soup 时显式指定其他解析器:
s4 = bs4.BeautifulSoup(r.text, 'html.parser')
关于python - Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27766087/
例如,我有一个父类Author: class Author { String name static hasMany = [ fiction: Book,
代码如下: dojo.query(subNav.navClass).forEach(function(node, index, arr){ if(dojo.style(node, 'd
我有一个带有 Id 和姓名的学生表和一个带有 Id 和 friend Id 的 Friends 表。我想加入这两个表并找到学生的 friend 。 例如,Ashley 的 friend 是 Saman
我通过互联网浏览,但仍未找到问题的答案。应该很容易: class Parent { String name Child child } 当我有一个 child 对象时,如何获得它的 paren
我正在尝试创建一个以 Firebase 作为我的后端的社交应用。现在我正面临如何(在哪里?)找到 friend 功能的问题。 我有每个用户的邮件地址。 我可以访问用户的电话也预订。 在传统的后端中,我
我主要想澄清以下几点: 1。有人告诉我,在 iOS 5 及以下版本中,如果您使用 Game Center 设置多人游戏,则“查找 Facebook 好友”(如与好友争夺战)的功能不是内置的,因此您需要
关于redis docker镜像ENTRYPOINT脚本 docker-entrypoint.sh : #!/bin/sh set -e # first arg is `-f` or `--some-
我是一名优秀的程序员,十分优秀!