gpt4 book ai didi

javascript - Pycurl 脚本

转载 作者:行者123 更新时间:2023-11-30 20:09:27 26 4
gpt4 key购买 nike

我创建了一个 python 3 脚本,允许我在搜索引擎 (DuckDuckGo) 上进行搜索,获取 HTML 源代码并将其写入文本文件。

import pycurl
from io import BytesIO

buffer = BytesIO()
c = pycurl.Curl()
c.setopt(c.URL, 'https://duckduckgo.com/?q=test')
c.setopt(c.WRITEDATA, buffer)
c.setopt(c.FOLLOWLOCATION, True)
c.perform()
c.close()

body = buffer.getvalue()
with open("output.htm", "w") as text_file:
text_file.write(str(body))
print(body.decode('iso-8859-1'))

那部分代码工作正常。但是,当我尝试打开包含搜索引擎 HTML 源代码的 output.htm 文件时,我什么也没得到(我在搜索中得到了一个 input主题写在里面)。我想要通过在我的终端上运行 curl https://duckduckgo.com/?q=test 获得相同的 HTML 源代码。

最佳答案

Duckduckgo 的 html 页面使用 javascript 将他们的搜索结果加载到他们的 html 标记中,因此 curlPyCurl 将无法获得您所看到的相同 html 内容在浏览器中,因为 curl/pycurl 仅获取互联网资源,但不提供任何 javascript 处理。

使用https://duckduckgo.com/api而不是在他们的服务器/数据库中抓取搜索结果。

关于javascript - Pycurl 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52550953/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com