python - aiohttp:如何在下载响应正文之前有效地检查 HTTP header ？-6ren

python - aiohttp:如何在下载响应正文之前有效地检查 HTTP header ？

转载作者：行者123 更新时间：2023-12-04 13:42:41

27

4

我正在使用 asyncio/aiohttp 编写网络爬虫。我希望爬虫只想要下载 HTML 内容，而跳过其他所有内容。我编写了一个简单的函数来根据扩展名过滤 URL，但这并不可靠，因为许多下载链接中不包含文件名/扩展名。

我可以用 aiohttp.ClientSession.head()要发送 HEAD 请求，请检查 Content-Type字段以确保它是 HTML，然后发送单独的 GET 请求。但这会增加延迟，因为每页需要两个单独的请求(一个 HEAD，一个 GET)，如果可能的话，我想避免这种情况。

是否可以仅发送常规 GET 请求，并将 aiohttp 设置为“流式”模式以仅下载 header ，然后仅在 MIME 类型正确时才继续下载正文？或者是否有一些(快速)替代方法可以过滤掉我应该考虑的非 HTML 内容？

更新

根据评论中的要求，我通过发出两个单独的 HTTP 请求(一个 HEAD 请求和一个 GET 请求)包含了一些我的意思的示例代码:

import asyncio
import aiohttp

urls = ['http://www.google.com', 'http://www.yahoo.com']
results = []

async def get_urls_async(urls):
    loop = asyncio.get_running_loop()

    async with aiohttp.ClientSession() as session:
        tasks = []

        for u in urls:
            print(f"This is the first (HEAD) request we send for {u}")
            tasks.append(loop.create_task(session.get(u)))

        results = []
        for t in asyncio.as_completed(tasks):
            response = await t
            url = response.url

            if "text/html" in response.headers["Content-Type"]:
                print("Sending the 2nd (GET) request to retrive body")
                r = await session.get(url)
                results.append((url, await r.read()))
            else:
                print(f"Not HTML, rejecting: {url}")

        return results

results = asyncio.run(get_urls_async(urls))

最佳答案

这是一个协议(protocol)问题，如果你做 GET ，服务器要发送正文。如果您不检索正文，则必须放弃连接(这实际上是如果您不在响应中的 read() 之前执行 __aexit__ 的操作)。

所以上面的代码应该做更多你想做的事。注意服务器可能会发送第一个块，而不仅仅是头

关于python - aiohttp:如何在下载响应正文之前有效地检查 HTTP header ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54496954/

27

4

0

文章推荐： C#:使用 PDFsharp 创建 PDF 表单 (AcroForm)

文章推荐： diff - Talend - 比较 2 个文件并保留两个文件不同的条目

header - 在ANTLR中使用@header
我在让“@header”或任何其他@规则在ANTLR中工作时遇到麻烦。具有非常基本的语法，如下所示: grammar test; options { language = CSharp2;
header - header 来源与主机
我对来源和寄宿有疑问我有一个ajax页面“Page A”，它将称为ajax提要“Page B” 我看到来自ajax调用的“页面B”的请求 header 具有源“http://mydomain.com
python - 用带有两个 header 信息的单个 header 替换多个数据帧 header
我在 pandas 中使用了数据透视表并获得了所需的数据框格式，但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
python - 用带有两个 header 信息的单个 header 替换多个数据帧 header
我在 pandas 中使用了数据透视表并获得了所需的数据框格式，但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
c - 如何在主机将它们发送到网络之前修改数据包 header (IP header ，TCP header )
我想在主机将它们发送到网络之前修改数据包头(IP 头、TCP 头)。例如，如果我使用 firefox 进行浏览，那么我想拦截所有来自 firefox 的数据包并修改 IP/TCP header ，然
html - header 内容包装到#header 但#header 显示为空
我的 header 内容被包装到#header 中，但是当我设置边框显示结构时，它显示我的#header 的内容出现在#header 本身之后。可能是什么问题？这是我的代码: #header { bo
browser-cache - 浏览器如何处理过期 header 、缓存控制 header 、最后修改 header ？
我是一名 Web 开发人员，使用过 PHP 和 .NET。有一年多的 Web 工作经验，我一直无法彻底了解浏览器缓存功能，希望这里的 Web Gurus 可以帮助我。我心中的问题是: 浏览器实际上是如
C++ 将多个 header 连接到一个 header 并使用这些 header 函数
伙计们，我有一个问题，我不知道如何在一个 header 中连接多个 header ，我们称它为“主 header ”并使用该 header 中的函数，例如 // A.h #include class
c# - 我应该使用哪个 header ？ XMLHTTPRequest header 还是 SOAP header ？
我有一个包含 SOAP 消息的 XMLHTTPRequest。我想添加用于标识消息并将由 C# Web 服务使用的 guid。 GUID 的目标是识别特定用户，并应护送所有用户请求以在服务器上进行身
javascript - 当到达当前卡住的 header 时，用第二个 header 替换粘性 header
我一直在阅读粘性标题，这是我目前所发现的。第一个粘性 header 效果很好，但是当它遇到第一个 header 时，我如何向上滚动第一个 header 并使第二个 header 卡住？ http://
objective-c - UICollectionView:自定义UICollectionViewFlowLayout header (多个 header 和 header 位置)
我想将当前基于 TableView 的数据网格转换为新的 UICollectionView 类。这就是我当前的网格的样子: 我的网格有两个标题: 年份(2006a、2007a 等)和类型(“收入”
header - Apollo 服务器设置响应 header
我目前正在使用 Apollo 服务器。我正在尝试在响应 header 中设置一个属性。并且此属性是从客户端 graphQL 请求 header 中检索的。我在网上查了一下。并看到了诸如使用插件或扩展
http-headers - 如何为转发的请求设置 header
我的 Controller 的方法需要设置一个标题，例如X-Authorization .创建新对象( store Action )后，我执行转发以显示新创建的对象( show Action ): $
header - 对以太网帧的 header 大小感到困惑
我正在研究一些关于 VLAN 的事情，发现了 VLAN 标签和 header 。如果我们有标准 802.3 以太网帧的 MTU(1518 字节)， header 802.3 中包含什么？另外，
http-headers - 我们如何放心地传递多个 header ？
我是放心和 Java 的新手，我正在尝试做一个非常基本的测试来检查 API 的响应是否为 200 ok。谁能告诉我我需要在下面的脚本中更改什么才能传递多个 header Id、Key 和 ConId
header - zlib header 是什么样的？
在我的项目中，我需要知道 zlib header 是什么样的。我听说它相当简单，但我找不到 zlib header 的任何描述。例如，它是否包含魔数(Magic Number)？最佳答案 zlib
http-headers - 根据条件发送不同的HTTP header
我正在使用 JMeter 测试 HTTP 服务器，该服务器接受并验证 APIKey 并在成功时返回一个有时限的 token 。如果我有 token ，我想发送一个 token ；如果没有，我想发送一个
header - 以太网 header 是什么样的？
以太网 header 是什么样的？是吗: 1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18|19|20|21|22|23|24|25|26|27|28|29|
header - 如何测试 CORS header
我们的应用程序支持 CORS 配置 header 。我在两个不同的主机上分别配置了 testApp。两种设置都相互独立工作。host1 上的应用程序配置有 CORS header Access-Con
c++ header 本身不包含依赖 header
tlhelp32.h 不包含 windows.h 本身是有原因的吗？我一直在与大量的编译器错误作斗争，因为我在包含 tlhelp32.h 之后包含了 windows.h。这是设计决定还是出于什么原因？

首页

博学

6Ren·AI

商城

python - aiohttp:如何在下载响应正文之前有效地检查 HTTP header ？