gpt4 book ai didi

python - 如何获取html页面的真实源代码?

转载 作者:行者123 更新时间:2023-12-01 05:13:39 24 4
gpt4 key购买 nike

每次当我使用像 urllib2、requests、pycurl 这样的标准库时,我都没有获得完整的源代码。我怎样才能获得完整的源代码,就像我在 chrome、firefox 等上查看的一样。我正在尝试这样做:

def go_to(link):
headers = {'User-Agent': USER_AGENT,
'Accept': ACCEPT,
'Accept-Encoding': ACCEPT_ENCODING,
'Accept-Language': ACCEPT_LANGUAGE,
'Cache-Control': CACHE_CONTROL,
'Connection': CONNECTION,
'Host': HOST}
req = urllib2.Request(link, None, headers)
response = urllib2.urlopen(req)
return response.read()

谢谢!

抱歉我的英语不好。

UPD:这是来自浏览器的完整代码:

 <td colspan="1"><font class="spy1">1</font> <font class="spy14">192.3.10.113<script type="text/javascript">document.write("<font class=spy2>:<\/font>"+(TwoFiveFiveSix^OneOneSix)+(Zero0FourFour^ZeroSevenSeven)+(TwoFiveFiveSix^OneOneSix)+(TwoFiveFiveSix^OneOneSix))</script><font class="spy2">:</font>8088</font></td>

这不是我的脚本中的完整代码:

<font class="spy14">192.3.10.113<script type="text/javascript">document.write("<font class=spy2>:<\/font>"+(Eight7FiveSix^Seven1One)+(FiveZeroTwoOne^Two3Zero)+(Eight7FiveSix^Seven1One)+(Eight7FiveSix^Seven1One))</script></font>

最佳答案

既然可以有javascript,AJAX形成网页所涉及的调用,为了确保您获得与在浏览器中看到的相同的源代码,您需要使用实际使用真实浏览器的工具,例如 selenium :

from selenium import webdriver

browser = webdriver.Firefox()
browser.get(link)

print browser.page_source

关于python - 如何获取html页面的真实源代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23657849/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com