gpt4 book ai didi

python - 使用 urlopen 我可以获取页面的 html,但缺少一个关键部分

转载 作者:太空宇宙 更新时间:2023-11-03 18:43:35 25 4
gpt4 key购买 nike

我正在尝试制作一个脚本,使用 url 从 google 获取类似的图像,使用 this 中的一部分代码。

问题是,我想要访问 this链接,因为我可以通过点击“按图像搜索”链接来访问图像本身,但是当我使用脚本时,我会得到完全相同的页面,但没有“按图像搜索”链接。

我想知道为什么以及是否有办法解决它。

提前非常感谢!

附注这是代码

import os
from urllib2 import Request, urlopen
from cookielib import LWPCookieJar

USER_AGENT = r"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)"
LOCAL_PATH = r"C:\scripts\google_search"
COOKIE_JAR_FILE = r".google-cookie"

class google_search(object):
def cleanup(self):
if os.path.isfile(self.cookie_jar_path):
os.remove(self.cookie_jar_path)

os.chdir(LOCAL_PATH)
for html in os.listdir("."):
if html.endswith(".html"):
os.remove(html)

def __init__(self, cookie_jar_path):
self.cookie_jar_path = cookie_jar_path
self.cookie_jar = LWPCookieJar(self.cookie_jar_path)
self.counter = 0
self.cleanup()
try:
cookie.load()
except Exception:
pass


def get_html(self, url):
request = Request(url = url)

request.add_header("User-Agent", USER_AGENT)
self.cookie_jar.add_cookie_header(request)
response = urlopen(request)
self.cookie_jar.extract_cookies(response, request)
html_response = response.read()
response.close()
self.cookie_jar.save()
return html_response


def main():
url_2 = r"http://www.google.com/search?hl=en&q=http%3A%2F%2Fi.imgur.com%2FqGRxTNA.jpg&btnG=Google+Search"
search = google_search(os.path.join(LOCAL_PATH, COOKIE_JAR_FILE))
html_2 = search.get_html(url_2)


if __name__ == '__main__':
main()

最佳答案

几周前我已经尝试过类似的事情。我的服务器曾经用 404 拒绝我的请求,因为我没有设置正确的用户代理。

就您而言,您没有正确设置用户代理。粘贴我的用户代理 header 。

USER_AGENT = r"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36"

PS:我希望您已阅读 Google 的条款和条件。您可能违反了条款。

关于python - 使用 urlopen 我可以获取页面的 html,但缺少一个关键部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20021117/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com