- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个将网页下载到文本文件的功能
#include <iostream>
#include <string>
#include <fstream>
#include <Windows.h>
#include <WinINet.h>
#pragma comment(lib, "WinINet.lib")
void Download(wstring url)
{
std::ofstream fout(L"temp.txt");
HINTERNET hopen = InternetOpen(L"MyAppName",
INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
if (hopen)
{
DWORD flags = INTERNET_FLAG_DONT_CACHE;
if (url.find(L"https://") == 0)
flags |= INTERNET_FLAG_SECURE;
HINTERNET hinternet = InternetOpenUrl(hopen, url.c_str(), NULL, 0, flags, 0);
if (hinternet)
{
char buf[1024];
DWORD received = 0;
while (InternetReadFile(hinternet, buf, sizeof(buf), &received))
{
if (!received) break;
fout.write(buf, received);
}
InternetCloseHandle(hinternet);
}
InternetCloseHandle(hopen);
}
return;
}
当我给它“https://camelcamelcamel.com/Lodge-LMS3-Miniature-Skillet/product/B000LXA9YI ”作为参数时,仅输出 https://hastebin.com/gilomexomu.xml (太大了,放不下)这会切断大部分网页。我不确定网站上是否有一些反下载脚本,或者它是否太大。
最佳答案
这不是你的代码。这是网站。我相信它只能提供 gzip 压缩数据。否则,它会在几 kb 的数据后爆炸。 curl 显示网站正在过早中止传输:
$ curl https://camelcamelcamel.com/Lodge-LMS3-Miniature-Skillet/product/B000LXA9YI -o text.txt
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 15725 0 15725 0 0 4702 0 --:--:-- 0:00:03 --:--:-- 4702
curl: (18) transfer closed with outstanding read data remaining
所以我做了两件事来更好地使用您的代码模拟网络浏览器
然后,为了解码整个 HTML,我只需从 Bash 命令提示符运行此命令:
gunzip < temp.txt > temp_final.txt
结果是 temp_final.txt 具有整个 html 响应。
这是调整后的代码:
#include <iostream>
#include <string>
#include <fstream>
#include <Windows.h>
#include <WinINet.h>
#pragma comment(lib, "WinINet.lib")
void Download(const std::wstring& url)
{
FILE* file = fopen("temp.txt", "wb");
HINTERNET hopen = InternetOpen(L"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
if (hopen)
{
DWORD flags = INTERNET_FLAG_DONT_CACHE;
if (url.find(L"https://") == 0)
flags |= INTERNET_FLAG_SECURE;
LPCWSTR headers = L"User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36\r\n"
L"DNT: 1\r\n"
L"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8\r\n"
L"Accept-Encoding: gzip, deflate, br\r\n"
L"Accept-Language: en-US,en;q=0.9\r\n";
HINTERNET hinternet = InternetOpenUrl(hopen, url.c_str(), headers, 0, flags, 0);
if (hinternet)
{
char buf[1024+1]={};
DWORD received = 0;
while (InternetReadFile(hinternet, buf, 1024, &received))
{
if (!received) break;
printf("%d\n", received);
fwrite(buf, 1, received, file);
}
InternetCloseHandle(hinternet);
}
InternetCloseHandle(hopen);
}
return;
}
void main()
{
Download(L"https://camelcamelcamel.com/Lodge-LMS3-Miniature-Skillet/product/B000LXA9YI");
}
我尝试取出接受编码或将其设置为“身份”。结果是服务器发回半页然后中止。
关于c++ - WinInet 只下载网页的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51202662/
我正在寻找一个简单的函数,它能够将来自 Internet 的文本或二进制文件读入 string 多变的。 令人难以置信的是,我在网络上找不到任何内容,只有所有 WinInet 的低级描述。在 MQL
我有以下代码: #include #include #include #include #include using namespace std; int main(int argc, ch
我正在使用 wininet 连接到服务器。一切正常,上传,下载,列出命令等......因此,我有一个小错误,我不知道它来自哪里。错误是某些包含超过 100 个文件(例如图像)的服务器文件夹没有全部列出
我正在使用 WinInet 和 InternetOpenUrl 下载一个文件...正在运行。但我想监控进度,所以我尝试添加一个回调函数,但由于某种原因它从未被调用过...... 代码: void CA
我对 C++ 编程还很陌生,所以请多多包涵。我正在尝试创建一个用于教育目的的 ftp 客户端,做了一些研究并决定尝试一下 Wininet,并发现了一些在线教程: 以此为例: #include #in
我有一个将网页下载到文本文件的功能 #include #include #include #include #include #pragma comment(lib, "WinINet.li
我很好奇为什么我在使用此功能时遇到问题。我正在将网络上的 PNG 文件下载到目标路径。例如下载谷歌图片到C:盘: netDownloadData("http://www.google.com/intl
我已经为 Internet Explorer 编写了一个 BHO,它 Hook WinInet 以修改来自 IE 的一些 HTTP 请求,方法是将它们重定向到内部服务器。 当我在 IE 中打开前 3
我正在试验我的 .NET 客户端和服务器之间的缓存。在 WinInet 决定缓存结果之前,我看到一个看似随机的端点命中数。 .NET 客户端使用 HttpWebRequest 发出请求: HttpWe
我发现 WinHTTP 不可重入(1、2)。 WinINET 是可重入的吗? 我们有一个与 WinINET 同步 HTTP 的 ActiveX 控件。如果浏览器(在 javascript 中)触发一个
相关 How to send a HTTP POST Request in Delphi using WinInet api : 我如何提出发布请求并跟踪进度? 这不起作用(检查评论): proced
iam 使用 wininet 下载图像并将其保存到内存流这是我的程序 procedure DownloadToStream(const Url: string; ms: TMemoryStream);
我们使用 WinInet 和 Delphi 通过 HTTPS 进行通信。WinInet 中是否有一个函数可以返回 session 中协商的协议(protocol),即 TLS1.1、TLS 1.2 等
我有一个应用程序,它大量使用 Wininet 函数从互联网获取一些数据。有时我会收到非常奇怪的与句柄相关的错误消息: Internal error in ConnectToHost when tryi
我从第三方网站获得了以下源代码,解释了如何使用 WinInet 从互联网下载文件。我对 API 不太熟悉,我查看了 WinInet 单元,但没有看到任何我需要的 API 调用。 我正在做的是添加报告文
我在 wininet.dll 深处遇到崩溃。尝试读取 HTTP_REQUEST_HANDLE_OBJECT::ReleaseConnection 中的零内存位置时崩溃了 这是实际 DLL 中的错误,而
我正在尝试检测 ftp 服务器何时关闭我在应用程序中打开的连接。我正在使用 WinInet 功能。 我发现了一些使用 InternetSetStatusCallback 函数的示例。我实现了一个回调函
我编写了一个使用 WinInet 库的程序。该程序每天运行约 8-12 小时。首先它连接到互联网,然后它使用 FTP 下载/上传文件。之后它开始一个循环,在不同的时间间隔启动最多两个线程。两个线程都在
我正在尝试连接并确保我们设计的仪器提供的网络服务器上存在各种页面。我正在尝试使用 WinInet 命令通过 C++ Win32 执行此操作。 我很高兴我已经通过 HTTP 正确连接到网络服务器: hI
我正在尝试使用 C++ 中的 WinHTTP 获取文件的内容。该文件是一个 XML 文件,由服务器上的可执行文件生成。 用于初始化、连接甚至读取指定服务器地址上的文件的代码正在运行。 // Conne
我是一名优秀的程序员,十分优秀!