gpt4 book ai didi

python - 无法找到我博客的确切源代码

转载 作者:太空宇宙 更新时间:2023-11-03 19:17:09 24 4
gpt4 key购买 nike

我正在参与一个处理网页 HTML 解析的项目。所以,我拿了我的blog (博主博客 - 动态模板)并尝试阅读它的内容。不幸的是,我未能查看博客网页的“实际”来源。

这是我观察到的:

  1. 我在博客的一篇随机文章上点击了查看源代码,并尝试查找其中的内容。我找不到任何东西。这都是 JavaScript。

  2. 所以,我将网页保存到笔记本电脑上,并再次检查来源,这次我找到了内容。

  3. 我还在浏览器中使用开发人员工具检查了源代码,并再次找到了其中的内容。

  4. 现在,我尝试了 python 方式

    import urllib
    from bs4 import BeautifulSoup

    soup = BeautifulSoup( urllib.urlopen("my-webpage-address") )
    print soup.prettify()

    我连HTML代码里的内容都没有找到。

最后,为什么我在case1、4的源码中找不到内容。

我应该如何获取实际的 HTML 代码?我希望听到任何可以完成这项工作的 python 库。

最佳答案

内容通过 JavaScript (AJAX) 加载。它不在“源”中。

在第 2 步中,您将保存结果页面,而不是原始源。在第 3 步中,您将看到浏览器呈现的内容。

第 1 步和第 4 步“不起作用”,因为您正在获取页面的源代码(不包含内容)。您需要实际运行 JavaScript,这对于屏幕抓取工具来说并不容易做到。

关于python - 无法找到我博客的确切源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10999822/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com