gpt4 book ai didi

c++ - linux下从HTML中提取关键字到C++

转载 作者:太空宇宙 更新时间:2023-11-04 14:20:08 30 4
gpt4 key购买 nike

我正在从事一个简单的客户端-服务器项目。客户端用 Java 编写,它向 Linux 下编写的 C++ 服务器发送关键字,并接收具有最佳排名的 URL 列表(取决于关键字出现的次数)。服务器的工作是通过一些 URL 来搜索关键词并返回最合适的 URL。现在的问题是,我必须解析 HTML 站点以查找出现的关键字,此外我还需要从访问过的页面中提取链接 以在它们上进行搜索。我的问题是我可以使用哪个库来做到这一点?请记住只有 C++ linux 库适合我。有一些类似的主题,所以我尝试浏览其中的大部分,但是有些库只解析 html 文件,我不想下载我访问的每个站点,而是动态解析它并只存储它的排名和 url .其中一些对我来说看起来有点复杂——例如首先将 HTML 解析为 XML 或其他东西,然后最后使用 C++ 处理结果。有什么简单而足以做我需要做的事情吗?任何建议将不胜感激。

最佳答案

我认为正则表达式不适合 HTML 解析。我正在使用 libxml2,我非常喜欢它 - 易于使用、便携且速度快如闪电。

关于c++ - linux下从HTML中提取关键字到C++,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8261642/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com