gpt4 book ai didi

c# - 如何使用 System.Net.HttpClient 检索部分响应

转载 作者:可可西里 更新时间:2023-11-01 07:58:36 24 4
gpt4 key购买 nike

我正在尝试使用新的 HttpClient 类(在 .NET 4.5 中)从服务器检索部分响应以检查内容。我需要将检索到的数据大小限制为 HTTP 请求中内容的前几个字节,以限制带宽使用。

我一直无法做到这一点。我尝试使用 GetAsync(url, HttpCompletionOption.ResponseHeadersRead) 然后使用 Content.ReadAsStream() 尝试只读取 header ,然后读取一小块响应流。我还尝试了 GetStreamAsync() 然后用一小块(1000 字节)读取内容流。

在这两种情况下,HttpClient 似乎都在拉取和缓冲整个 HTTP 响应,而不是仅仅从流中读取请求的字节数。

最初我使用 Fiddler 来监控数据,但意识到 Fiddler 实际上可能导致整个内容被代理。我切换到使用 System.Net 跟踪(显示):

ConnectStream#6044116::ConnectStream(Buffered 16712 bytes.)

这是完整的大小,而不仅仅是读取的 1000 字节。我还在 Wireshark 中进行了双重检查,以验证确实是通过网络传输了全部内容。对于更大的内容(如 110k 的链接),我在 TCP/IP 流被截断之前获得了大约 20k 的数据。

我尝试读取数据的两种方式:

response = await client.GetAsync(site.Url, HttpCompletionOption.ResponseHeadersRead);
var stream = await response.Content.ReadAsStreamAsync();

var buffer = new byte[1000];
var count = await stream.ReadAsync(buffer, 0, buffer.Length);
response.Close() // close ASAP
result.LastResponse = Encoding.UTF8.GetString(buffer);

和:

var stream = await client.GetStreamAsync(site.Url);
var buffer = new byte[1000];
var count = await stream.ReadAsync(buffer, 0, buffer.Length);
result.LastResponse = Encoding.UTF8.GetString(buffer);

它们都产生几乎相同的 .NET 跟踪,其中包括缓冲读取。

是否可以让 HttpClient 实际上只读取 Http Repsonse 的一小部分,而不是整个响应,以便不使用全部带宽? IOW 有没有办法使用 HttpClient 或 HttpWebRequest 禁用 HTTP 连接上的任何缓冲?

更新:经过一些更广泛的测试后,看起来 HttpClient 和 HttpWebRequest 都缓冲了前几个 TCP/IP 帧——大概是为了确保捕获 HTTP header 。因此,如果您返回一个足够小的请求,它往往会被完全加载,因为它在初始缓冲读取中。但是当加载更大的内容 url 时,内容会被截断。对于 HttpClient,它大约是 20k,对于 HttpWebRequest,对我来说大约是 8k。

使用 TcpClient 没有任何缓冲问题。使用它时,我会以读取的大小加上最近缓冲区大小重叠的一点额外内容来读取内容,但这确实包括 HTTP header 。使用 TcpClient 对我来说并不是一个真正的选择,因为我们必须处理 SSL、重定向、身份验证、分块内容等。那时我会考虑实现一个完整的自定义 HTTP 客户端,只是为了打开缓冲。

最佳答案

实现您需要做的事情的最佳方式如下:

using System;
using System.Net.Sockets;

namespace tcpclienttest
{
class Program
{
static byte[] GetData(string server, string pageName, int byteCount, out int actualByteCountRecieved)
{
const int port = 80;
TcpClient client = new TcpClient(server, port);

string fullRequest = "GET " + pageName + " HTTP/1.1\nHost: " + server + "\n\n";
byte[] outputData = System.Text.Encoding.ASCII.GetBytes(fullRequest);

NetworkStream stream = client.GetStream();
stream.Write(outputData, 0, outputData.Length);

byte[] inputData = new Byte[byteCount];

actualByteCountRecieved = stream.Read(inputData, 0, byteCount);

// If you want the data as a string, set the function return type to a string
// return 'responseData' rather than 'inputData'
// and uncomment the next 2 lines
//string responseData = String.Empty;
//responseData = System.Text.Encoding.ASCII.GetString(inputData, 0, actualByteCountRecieved);

stream.Close();
client.Close();

return inputData;
}

static void Main(string[] args)
{
int actualCount;
const int requestedCount = 1024;
const string server = "myserver.mydomain.com"; // NOTE: NO Http:// or https:// bit, just domain or IP
const string page = "/folder/page.ext";

byte[] myPartialPage = GetData(server, page, requestedCount, out actualCount);
}
}
}

但是有几点需要注意:

那里没有错误处理,所以你可能想把它全部包装在 try/catch 或其他东西中,以确保你掌握任何连接错误、超时、 Unresolved IP 解析等。

因为您处理的是原始流,所以 HTTP header 也在那里,因此您需要将它们考虑在内。

从理论上讲,您可以在读取主套接字之前放置一个循环,继续抓取数据,直到一行中出现空白\n ,它会告诉您 header 在哪里结束,然后您就可以抓取您的实际数据计数,但由于我不知道服务器,您也在说话,所以我忽略了这一点 :-)

如果您将整个代码复制/粘贴到 VS 中的新控制台项目中,它可以按原样运行,因此您可以单步执行它。

据我所知,HTTP 客户端不会将其原始流提供给用户,即使这样做了,因为它被分配为流连接,您不太可能对其计数有太多控制,我我之前研究过它并放弃了。

我已经多次使用这段代码,它在类似情况下对我来说效果很好,事实上,我有一个监视器可以使用它从我的 WiFi 适配器获取统计数据,这样我就可以看到谁在连接。

如有任何问题,请随时在这里联系我,或在 Twitter 上联系我,我的用户名是@shawty_ds(以防万一你弄丢了它)

美女

关于c# - 如何使用 System.Net.HttpClient 检索部分响应,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21017328/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com