gpt4 book ai didi

Python 3.7 urllib.request 返回   而不是内容

转载 作者:行者123 更新时间:2023-11-28 02:26:38 25 4
gpt4 key购买 nike

所以我编写了一个代码,用于读取和打印 HTML 代码中指定文本之间的所有内容,例如,读取段落之间的所有内容<> - 这将被打印。这是来自 senddex 类(class) - here

代码没有问题,但是出来的东西有问题。我使用非常具体的标准进行过滤

paragraphs = re.findall(r'<div style="font-size: 23px; margin-top: 20px;" class="jsdfx-sentiment-present">(.*?)</div>',str(respData))

如前所述,它有效。稍后打印内容并打印 .据我了解,这是 HTML 中的非制动空间。我希望看到数字而不是空间。在此网站中,此位置的数字每隔几秒更新一次。

我怎样才能得到这些数字而不是接收  ?

问候!

最佳答案

这取决于您下载页面的准确程度以及从何处下载,但是因为您说在网络浏览器中查看时值会不断变化,所以我敢打赌,当您下载页面时,  正是该 div 中的内容 - 页面会在您实际查看页面时通过 javascript 或其他方式即时更改它。您的教程使用静态标记,每次加载页面时都使用相同的标记,而不是在页面已处于事件状态后动态设置的标记。

在 Web 开发中为动态值执行此操作相当常见 - 将占位符值放在 div 中,然后根据需要动态编辑内容。如果当然,如果您只是拍摄页面的快照(甚至更多,如果您在 javascript 代码之前拍摄该快照,并且填充该值的诸如此类的东西有机会运行),您将不会看到更改,你得到的只是默认值,没有填写数字。

根据您链接的教程,您可能正在使用 urllib。如果您想从 HTML 页面获取动态内容,这可能不是最好的工具 - 您应该查看 seleniumBeautifulSoupThis StackOverflow Answer详细介绍了此问题的有效解决方案。

关于Python 3.7 urllib.request 返回 &nbsp 而不是内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53564465/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com