gpt4 book ai didi

c++ - 纯粹通过原始套接字连接连接到网站

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:07:17 24 4
gpt4 key购买 nike

语言 -> C++11 或 C++98 {NOT C}
操作系统 -> Linux嵌入式系统
限制-> 禁止使用任何第 3 方库。概述 -> 与网站建立连接。
我有一个 Linux 嵌入式系统,不允许下载任何库,如 poco 或 libcurl 或 boost 来建立与网站的连接和提取信息。所以我想知道是否有人可以指导我如何完全通过 C++ [不是 c] 中的原始套接字建立连接并从页面检索信息。

解析信息并检索准确信息对我来说不是挑战,我的主要问题是如何通过 http 协议(protocol)建立连接。如果我是对的,要连接到网站我需要 http 协议(protocol)而不是 TCP/IP。
有人可以给我指出正确的方向吗?谢谢

最佳答案

您可以使用原始 TCP socketHTTP 通信。由于您没有提供代码,我也无法提供代码。如果您已经知道如何连接、发送和接收来自服务器的数据,那应该很容易。只需按照以下步骤操作。假设您要连接到 www.cnn.com

1。将网站的域名转换为 IP 地址。

2。使用端口 80 连接到该 IP 地址。

3。发送字符串 GET/HTTP/1.1\r\nHost: www.cnn.com\r\nConnection: close\r\n\r\n

4。从套接字/服务器读取。如果服务器可用,它将响应该网页上的页面或 html 代码。

5。关闭套接字连接。

请注意,如果您不提供您正在使用的 User-Agent/Web 浏览器 名称,某些网站将不会响应,甚至会阻止您。

要解决此问题,请在添加步骤中将 User-Agent:MyBrowserName\r\n header 添加到字符串中。你可以伪造浏览器。您必须在每个 header 之后放置 \r\n

例如,我使用的 Chrome 浏览器是 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML,如 Gecko)Chrome/48.0.2564.97 Safari/537.36。 p>

将在步骤 3 中发送的新字符串应如下所示 GET/HTTP/1.1\r\nHost: www.cnn.com\r\nConnection: close\r\nUser-Agent: Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,如 Gecko)Chrome/48.0.2564.97 Safari/537.36\r\n\r\n。您应该注意到每个标题后都有 \r\n。最后一个 header 以 \r\n\r\n 而不是 \r\n 结尾。

其他有用的 header 是 Connection: Keep-Alive\r\n , Accept-Language: en-us\r\n, Accept-Encoding: gzip,放气\r\n

如果网站是 https 而不是 http,请将端口 80 替换为 443。事情从这里开始变得复杂,因为您必须实现 SSL 协议(protocol)。

假设您想访问另一个目录中的页面而不是主页,并且 url 是 http://www.cnn.com/2016/05/13/health/healthy-eating-quiz/index.html

要发送的字符串应该是这样的:

GET/2016/05/13/health/healthy-eating-quiz/index.html HTTP/1.1\r\n主机:www.cnn.com\r\n连接:关闭\r\n\r\n

如果您使用代理,则必须将整个 url 放在 GET 命令之后:

GET GET http://www.cnn.com/2016/05/13/health/healthy-eating-quiz/index.html HTTP/1.1\r\n主机:www.cnn.com\r\n连接:关闭\r\n\r\n

关于c++ - 纯粹通过原始套接字连接连接到网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37231114/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com