gpt4 book ai didi

python - requests.get() 和/或 BeautifulSoup() 行为不一致

转载 作者:太空宇宙 更新时间:2023-11-03 14:18:12 24 4
gpt4 key购买 nike

我有以下代码:

__PARENT_TAG = "article"

def _navigate_to_xxx(self):
"""acquire html from xxx and beautify the raw html"""
html = requests.get(xxx.__BASE_URL + xxx.__EXTENDED_URL)
self.beautified_html = BeautifulSoup(html.content, "html.parser")

def _extract(self):
"""helper function that extracts elements from beautified_html and returns it"""
element_list = None
element_list = self.beautified_html.findAll(self.__PARENT_TAG)
logging.debug("The number of __PARENT_TAG is: {0}".format(len(element_list)))
return element_list

问题是对于同一个网页,我从调试线上得到的结果有时是18,有时是20(我期望的是20)。

有人知道为什么会发生这种情况吗?

最佳答案

我认为我们需要看看您的 __PARENT_TAG 调用是什么样子才能准确诊断它,但我确实知道由常规网站的 html 制作的 BeautifulSoup 中有很多空的和无关的位。仔细查看 bs4 文档中 findall() 的确切行为:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all并确保您位于 html 树的正确部分。有些零件可能有一个额外的 <div>类或你意想不到的东西。

关于python - requests.get() 和/或 BeautifulSoup() 行为不一致,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48120003/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com