gpt4 book ai didi

c - 从 HTML 页面中解析 URL

转载 作者:行者123 更新时间:2023-11-30 18:06:58 24 4
gpt4 key购买 nike

我有一个字符串,其中包含通过 WinHttpReadData 下载的 HTML 页面。 。该字符串很简单char* .
我一直在尝试找到一种方法来仅提取该页面上的 URL。举个例子,假设您正在 google 上搜索 WinHTTP 这个词,然后您会看到一个充满链接的 HTML 页面。我现在需要检查每个链接,将其提取并将其保存到文件中。

我尝试搜索HREF , http://和其他关键字,然后尝试将字符串一直提取到 </a>但它并没有真正发挥作用。从该 URL 中获取描述也很好(例如 <a href="http://someurl.com/somepage.html">some text</a> get some text ),但它并不像 URL 本身那么重要。

这里棘手的事情是我无法使用第 3 方库,因为我不想处理许可证之类的问题。

关于如何做到这一点有什么想法吗? WinHTTP 是否提供了执行此操作的方法?在 C 中(不是 C++)?

感谢您的帮助

最佳答案

也许您应该使用 PCRE C API(可在 PCRE site 上获得)

您需要的正则表达式如下:

<a.*?href=[""'](?<url>.*?)[""'].*?>(?<name>.*?)</a>

这也应该映射到组 <url><name>在集团结构内。

关于c - 从 HTML 页面中解析 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5155784/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com