gpt4 book ai didi

python - lxml/BeautifulSoup 解析器警告

转载 作者:太空狗 更新时间:2023-10-30 00:37:48 24 4
gpt4 key购买 nike

使用 Python 3,我尝试通过将 lxml 与 BeautifulSoup 一起使用来解析丑陋的 HTML(不受我控制),如下所述:http://lxml.de/elementsoup.html

具体来说,我想使用 lxml,但我想使用 BeautifulSoup,因为正如我所说,它是丑陋的 HTML,lxml 会自行拒绝它。

上面的链接说:“您需要做的就是将它传递给 fromstring() 函数:”

from lxml.html.soupparser import fromstring
root = fromstring(tag_soup)

这就是我正在做的:

URL = 'http://some-place-on-the-internet.com'
html_goo = requests.get(URL).text
root = fromstring(html_goo)

有效的意思是在那之后我可以很好地操作 HTML。我的问题是每次运行脚本时,我都会收到这个烦人的警告:

/usr/lib/python3/dist-packages/bs4/__init__.py:166: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

To get rid of this warning, change this:

BeautifulSoup([your markup])

to this:

BeautifulSoup([your markup], "html.parser")

markup_type=markup_type))

我的问题可能很明显:我没有自己实例化 BeautifulSoup。我尝试将建议的参数添加到 fromstring 函数,但这只会给我错误:TypeError: 'str' object is not callable。到目前为止,在线搜索已证明无果。

我想删除该警告消息。感谢帮助,提前致谢。

最佳答案

对于其他初始化方式:

soup = BeautifulSoup(html_doc)

使用

soup = BeautifulSoup(html_doc, 'html.parser')

代替

关于python - lxml/BeautifulSoup 解析器警告,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50045775/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com