string - 将 http 压缩响应的精确副本复制到字符串中-6ren

string - 将 http 压缩响应的精确副本复制到字符串中

转载作者：可可西里更新时间：2023-11-01 16:26:42

我需要帮助。

我正在尝试获取内容编码为 gzip 的网站内容，在 Windows 上使用 dmd v2.066.1。这是我的测试网址:“http://diaboli.pl/test2.html”。

我的 HTTP 请求是:

GET /test2.html HTTP/1.1
Host: diaboli.pl
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: pl,en-US;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate
User-Agent: My Browser
Referer: http://google.pl
DNT: 1

服务器响应是:

HTTP/1.1 200 OK
Date: Sat, 24 Jan 2015 23:02:00 GMT
Server: Apache
Last-Modified: Sat, 24 Jan 2015 22:48:44 GMT
ETag: "5c468ad-83f-50d6db511eb00"
Accept-Ranges: bytes
Vary: Accept-Encoding,User-Agent
Content-Encoding: gzip
Content-Length: 942
Content-Type: text/html

.)┘R!SĽ╣ň┌KRB:éş^»{█ĺ.ç}aOě_DźŢ░▼'dĘ$ëĚk\|j\pý§Ěí▀k║Ź■ß♠┐}ú2žŢ  ´dĹĺńMłÎ▒└╚‼/§B⌂Ĺ▬°'˘uŕNá☺■█Ór↓m(┘đ▬Ţ┼ńĺ╦⌂
§gŰůqýä╗˘%p▬■&B♂M]§Üú3ý^ý-ÎD`x!Ő╔&M♥~╣y╬uşëňZ@▒]˘ä2}Ś╣xdÄyWüm§?ąě░Äd4,d‼î-▬
┬♣Bön°6{őu└♀☺█UĂ└,aF˘├☼☻OŔ˛mţË▄▀Čó¸ö31ÎňEÖKŮţĄîÔŐ←ôň¸HÉ┌bŤ}Dnń'ń9┌
Îă♠¶U♣VI^▲hËőŃ└_zďĆ6┬6█¨}{╝╦ÄřeđŠoŤčů¤űU´öěŁ*ŠxĂ☻(,─AôlZ»Ú^ßćş¸ő╬↓M`¬PË═qí¨Ýç▼7╣§y♫<J╬ÓŇëb#PćR§bˇĽ>Ěz╣┴âž7uř┐ `$SřítR¶╗u ź☻‼ĘXçf☺°NH▄˛☻ şp─RĄ►¬w╬\758GN║K)     ;ĺ\ÝŇľ♫╩┼╬|ABYÍţ∟═Yů+╔y?ťkVĐ┼
nş║☼jv¶ĐSô9Dů♠▓Ç˙üK╬2\˝d[☼ <ľ┘Ń↓ü╠âG ˇ¸
ľyŇđd■ß▲e☼Â¸♣e_ÂśúQ÷śń,ÖĹ¬[N╝b┼Ř└ŕ↓ÚcS┴3╗╠w▀[ş↕ĺŽCňđś↕⌂═őç˛ţHW∟d=╩║Y►│Ô]sČšX§_ˇ↔ĹCČŤI┬y┤ŕ▲╬Ő↕╩§┌}í m\∟Öç#<W*Ű┐h˘g2SęćĐqš►EËý üXđ.S▀kš2←↑►â☼Ň5Ę╬♀6∟\←B|fđşÚ*ZŽ%▀Î↓@ěEŕ♦TNgcż,→‼│→p-←î˘ă☻p$Ř%ôe
♠♀ŻýŁ8JiŔ▒"L■♀óą↨Č┘´☻«┌:ŰńĹ>♣§╝×░♂öĄT`=BÂ|5mˇ|Ňs)ŐRĹ═▒é┴\yru▬ć=Rďĺ]↔ŰýÉĆ☼─ć↑¬pZÇ▓9PC§ę4 ×@ş Ź☺╬ňLj█Á¨uĄ:│§Bšš∟ďŃ?▼nvO!0↔}î*╠aŢ ţh
Ľ*7Îĺ$vn ŔIŘM¸♀˙¶ÎŞŞb⌂♫äý"´♂çK}⌂Y♀ ♣XŽëM

如您所见，它是一个 gzip 编码的内容。服务器响应使用 write() 函数逐个字符地打印出 cmd 控制台。问题是，我无法准确复制响应字符串。如果我尝试，我会得到这个结果:

HTTP/1.1 200 OK
Date: Sat, 24 Jan 2015 23:02:00 GMT
Server: Apache
Last-Modified: Sat, 24 Jan 2015 22:48:44 GMT
ETag: "5c468ad-83f-50d6db511eb00"
Accept-Ranges: bytes
Vary: Accept-Encoding,User-Agent
Content-Encoding: gzip
Content-Length: 942
Content-Type: text/html

▼ő

我可以确定内容的长度，它与 HTTP Content-Length header 值相等，但我可以看到，它与一个一个的原始字符串不同。

同样有趣的是，我可以使用 zlib uncompress() 函数解压缩那个错误的内容字符串，它不会返回 zlib 数据错误，而是返回被剪切的解压缩内容。当然，FF、IE等浏览器显示完整的解压内容是没有问题的。

我像这样连接到服务器:

import std.stdio, import std.string, std.conv, std.socket, std.stream, std.socketstream, std.zlib;

ushort port=80; string domain="diaboli.pl"; 
string request_uri; int[] pos; string request; string buffer; string znak; string line; 
int contentlength=-1; int[] postab; string bodybuffer; string headerbuffer; int readingbody=0; 
std.zlib.UnCompress u; const(void)[] udata;

Socket sock = new TcpSocket(new InternetAddress(domain, port));
Stream ss   = new SocketStream(sock);

request="GET " ~ request_uri ~ " HTTP/1.1\r\n";
request~="Host: " ~ domain ~ "\r\n";
request~="Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n";
request~="Accept-Language: pl,en-US;q=0.7,en;q=0.3\r\n";
request~="Accept-Encoding: gzip, deflate\r\n";
request~="User-Agent: My Browser\r\n";
request~="Referer: http://google.pl\r\n";
request~="DNT: 1\r\n";
request~="\r\n";

writeln("HTTP request:\n---");
writeln(request);
writeln("---");

ss.writeString(request);

writeln("\nAll response from the server character by character:\n---");
line="";
while (1)
{
    if (readingbody==1) readingbody=2; //the way to separate headers and the content - first part.

    znak = to!string(ss.getc());
    if (ss.eof()) break;
    line~=znak;
    //if (readingbody==2) 
    write(znak);

    if (znak=="\n")
    {
        if (strpos(line,"Content-Length: ")>-1) 
        {
            postab ~= strpos(line,"\r");
            postab ~= strpos(line,"\n");
            contentlength=to!int(substr(line,16,postab.sort[0]-16));
        }

        if (readingbody==0 && line=="\r\n") readingbody=1;
        line="";
    }

    buffer ~= znak;

    //the way to separate headers and the content - second part.
    if (readingbody==0 && line=="\r\n") readingbody=1;
    if (readingbody==2) bodybuffer ~= znak;
    else headerbuffer ~= znak;
}

sock.close();

writeln("\n---");

write("Content-Length="); writeln(contentlength); //This is the Content-Length determined from the HTTP Content-Length header.
write("bodybuffer.length="); writeln(bodybuffer.length); //This the length of the content string

writeln("\nAll response copied into the string:\n---");
writeln(buffer);

writeln("---\nOnly content:\n---");
writeln(bodybuffer);

writeln("---\nUncompressed:\n---");
u = new UnCompress(HeaderFormat.determineFromData);
udata = u.uncompress(bodybuffer);
writeln(cast(string)udata);

//These are my simple text processing functions similar to php.
int strpos(string str,string tofind,int caseinsensitive=0)
{
    int pos=-1;
    if (caseinsensitive==1)
    {
        str=toUpper(str);
        tofind=toUpper(tofind);
    }
    if (str.length>=tofind.length)
    {
        for(int i=0;i<str.length;i++)
        {
            if (i+tofind.length>str.length) break;
            if (str[i..i+tofind.length]==tofind) 
            {
                pos=i;
                break;
            }
        }
    }
    return pos;
}

string substr(string str,int pos, int offset)
{
    string substring="";
    if (str.length>0 && pos>-1 && offset>0)
    {
        substring=str[pos..pos+offset];
    }
    return substring;
}

最佳答案

您的代码存在三个问题:

您使用 Stream.getc，它进行换行符转换。这会破坏二进制数据。您可以通过替换来解决此问题:
```
znak = to!string(ss.getc());
```
与:
```
char c; ss.readBlock(&c, 1); znak = to!string(c);
```
虽然最好完全避免 std.stream，但它是等待被替换的古老代码。
您指定 1.1 的 HTTP 版本，因此服务器发回带有 Transfer-Encoding: chunked 的内容。您的程序无法处理此传输编码。您可以将协议(protocol)版本更改为 1.0。
使用 std.zlib 类时，您必须在通过所有数据进行管道传输后调用 flush。添加这一行:
```
udata ~= u.flush();
```

通过这些更改，您的程序对我来说工作正常。

关于string - 将 http 压缩响应的精确副本复制到字符串中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28132109/

文章推荐： .net - 改用VS10有什么经验？

文章推荐： c# - .Net 函数调用 (C# F#) VS C++ 的性能

文章推荐： Hadoop MapReduce DBInputFormat 和 DBOutputFormat

文章推荐： c++ - 扩展 C++ 字符串成员函数

创建静态全局的多个实例/副本
不确定我的标题措辞是否正确，但请耐心等待，所有内容都会得到解释... 我们有一组代码不是在这里发明的，它使用进程间通信(IPC 消息传递)。该方案的大致轮廓是这样的: comms.c 包含: stat
svn - 命令行列出颠覆中的所有合并(副本)？
你怎么能列出所有的颠覆合并？例如: Trunk ____9_____14____20___ \ \ \ \______\_____\___
Java 集合引用-副本
是否有一个集合的标准 Java(1.5+)实现(即无第三方)，允许我将多个集合粘合到一个集合中？这是其工作原理的草图: final SomeCollection x = new SomeCollec
带有索引标记的行的 postgresql 副本
有没有办法让sql查询返回拆分行。我什至不知道怎么问。下面有'index_tag'。 select event.name, tb_ev.start_time, tb_ev.end_time from
具有模式支持的 postgresql 副本
我正在尝试使用 postgresql COPY 命令从 CSV 加载一些数据。诀窍是我想在用户标识(包含在 CSV 中)上实现 Multi-Tenancy 。加载 csv 时，是否有一种简单的方法告诉
带变量的 bash 副本
我正在尝试使用 bash 脚本将文件复制到当前目录。为了处理需要转义的路径，使用了一个变量，该变量被转义然后提供给 cp 命令。 cp 命令提示: usage: cp [-R [-H | -L |
swift - CAShapelayer 副本
我正在尝试每 20 毫秒向给定的 x 和 y 坐标添加一次 CAShapelayer。我希望形状在一秒钟内消失(就像示踪剂一样)。我创建的功能有效，形状在正确的位置创建并消失。但是我留下了额外的形状，
Python:根据用户输入打印一个或多个文件(副本)
我是 Python 新手。我正在尝试创建一个程序来打印我通常每周手动打印的一组文档，但是我遇到了几个问题: 这是代码: import os file_list = os.listdir("C:/Pyt
Java ArrayList 副本
我有一个大小为 10 的 ArrayList l1。我将 l1 分配给新的列表引用类型 l2。 l1 和 l2 会指向同一个 ArrayList 对象吗？或者是 ArrayList 对象的副本分配给
mongodb - Mongo 副本 "NotPrimaryNoSecondaryOk"
我这周花了一个自由职业者创建的 Mongo 4.4 PSA 副本来工作。我放弃了，从所有三台服务器上删除了完整的 mongod，然后按照 Mongo doc 从头开始安装。 .唯一的变化是在副本初
Cassandra:如何识别和列出包含特定行(副本)的节点？
设置信息: 我有两个数据中心，每个 DC 中有 5 个节点。我知道插入到表中的每一行都是根据使用的数据分区方案存储的；生成必要的副本并将它们存储在集群中的其他节点(根据复制策略选择节点)上。给定一行
xml - 无重复的 XSLT 副本
我对 XSLT 完全陌生，所以请耐心等待。我有两个 xml 文件，我试图使用 XSLT 将它们连接在一起。我想合并这些文件，以便第二个文件中指定的任何值覆盖第一个文件。例如 firstFile.xm
F# 制作不必要的 DateTimeOffset 副本
这里肯定有一个初学者问题，为什么 F# 编译器会制作不必要的 DateTimeOffset 副本，我该如何阻止它？我不记得这是个问题，但也许自从我在 F# 中使用 DateTimeOffset 以来已
c# - 基于模板打开 Excel 副本
我有一个用 C# 编写的 WinForms 应用程序，在将数据从 SQL 数据库导出到模板的工作表之前，它使用以下代码打开 Excel 模板。 Microsoft.Office.Interop.Exc
xslt - 带子字符串的 xsl 副本
我从这个 post 得到的 xsl 中有这个函数用“换行符”替换“cr” 我是这样调用它的: 我正在做文章链接，点击文本“阅读更多”
java - 多个实例而不是接口(interface)副本
所以这可能有点难以解释...... 目前我这样做: SomeInterface xyz1 = SomeInterface.method(data); SomeInterfaceCopy xyz2 =
pointers - 指针的 Fortran 副本
我有一个包含指针 p 的类型 var。我需要在另一个与 var 类型相同的变量 var1 上复制 var(通过在引号中执行 var1 "="var，因为我不知道这是否是正确的方法，请参见下文)。在我
xampp - 如何同时运行两个 xampp 副本？
出于某种原因，我需要同时运行两个 xampp 副本。我在互联网上阅读了很多教程，但如果我需要运行另一个，他们最终会告诉我关闭当前的 xampp。这有可能实现吗？最佳答案您可以使用不同的端口同时运行
云中的 Azure Blob 副本
在aws中，“upload-part-copy”具有字节范围选项。如果我想将两个对象的一部分复制到云中的新对象，我可以使用“upload-part-copy”命令进行复制。我找不到任何此类方法或机制
postgresql - 带行分隔符的 postgres 副本
我有一个带栏的表 foo foo --- bar 我使用 Postgres 的 Copy 命令 COPY (select * from foo) TO 'complete_file_path' WIT

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

string - 将 http 压缩响应的精确副本复制到字符串中