c# - html agility pack url scraping——获取完整的html链接-6ren

c# - html agility pack url scraping——获取完整的html链接

转载作者：行者123 更新时间：2023-11-30 23:31:25

25

4

嗨，我正在使用 nuget 包中的 html 敏捷包来抓取网页以获取页面上的所有 url。代码如下所示。然而，它在输出中返回给我的方式是，链接只是实际网站的扩展，而不是像 http://www.foo/bar/foobar.com 这样的完整 url 链接。。我将得到的只是“/foobar”。有没有办法使用下面的代码获取 url 的完整链接？谢谢!

static void Main(string[] args)
    {
        List<string> linksToVisit = ParseLinks("https://www.facebook.com");
    }

public static List<string> ParseLinks(string email)
    {

        WebClient webClient = new WebClient();

        byte[] data = webClient.DownloadData(email);
        string download = Encoding.ASCII.GetString(data);

        HashSet<string> list = new HashSet<string>();

        var doc = new HtmlDocument();
        doc.LoadHtml(download);
        HtmlNodeCollection nodes =    doc.DocumentNode.SelectNodes("//a[@href]");

            foreach (var n in nodes)
            {
                string href = n.Attributes["href"].Value;
                list.Add(href);
            }
        return list.ToList();
    }

最佳答案

您可以检查 HREF 值是相对 URL 还是绝对 URL。将链接加载到 Uri并测试它是否是相对的如果是相对的，则将其转换为绝对的将是要走的路。

static void Main(string[] args)
    {
        List<string> linksToVisit = ParseLinks("https://www.facebook.com");
    }

public static List<string> ParseLinks(string urlToCrawl)
    {

        WebClient webClient = new WebClient();

        byte[] data = webClient.DownloadData(urlToCrawl);
        string download = Encoding.ASCII.GetString(data);

        HashSet<string> list = new HashSet<string>();

        var doc = new HtmlDocument();
        doc.LoadHtml(download);
        HtmlNodeCollection nodes =    doc.DocumentNode.SelectNodes("//a[@href]");

            foreach (var n in nodes)
            {
                string href = n.Attributes["href"].Value;
                list.Add(GetAbsoluteUrlString(urlToCrawl, href));
            }
        return list.ToList();
    }

将相对URL转换为绝对URL的函数

static string GetAbsoluteUrlString(string baseUrl, string url)
{
    var uri = new Uri(url, UriKind.RelativeOrAbsolute);
    if (!uri.IsAbsoluteUri)
        uri = new Uri(new Uri(baseUrl), uri);
    return uri.ToString();
}

关于c# - html agility pack url scraping——获取完整的html链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34582769/

25

4

0

文章推荐： python - 将伪代码翻译成Python？

文章推荐： python - 循环遍历元组列表以对每个元组发出 POST 请求

文章推荐： mysql - 使用字符串函数显示特定数据

agile - 什么是 "Boeing Agile Software Process?"
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 3年前关闭。 Improve thi
agile - “MSF for Agile Software development”有什么好处？
Closed. This question is opinion-based。它当前不接受答案。想改善这个问题吗？更新问题，以便editing this post用事实和引用来回答。 2年前关闭。
html-agility-pack - 替换 Html Agility 中的标签
我正在尝试更换我所有的 h1带有 h2 的标签标签，我正在使用 HtmlAgility 包。我这样做了: var headers = doc.DocumentNode.SelectNodes("//
html-agility-pack - HTML Agility Pack - 获取类的所有链接
我想获取某个类中的所有链接。 HTML 的一个例子是 ES M3 E-mini S&P500 June 2013
html-agility-pack - Html Agility Pack InnerHtml 返回带有文本框的错误字符串
以下测试代码: [Test] public void PossibleHtmlAgilityPackBug() { const string html = @""; var doc =
agile - Visual Studio 团队服务 : How to migrate from Agile to Scrum process template
我正在使用 Visual Studio Team Services(以前称为 Team Foundation Service，而不是 Team Foundation Server)，并且需要将团队项目
html-agility-pack - 无法使用 Html-Agility-Pack 设置 InnerText
给定一个 HTML 文档，我想识别文档中的所有数字并在数字周围添加自定义标签。现在，我使用以下内容: HtmlNodeCollection bodyNode = htmlDoc.DocumentNod
html-agility-pack - 使用 Html Agility Pack 查找和删除指定的 HTML 标签
我正在尝试让 Html Agility Pack 在我的情况下工作。我需要检测现有 HTML 页面中的所有脚本元素并删除它们，将更改保存到另一个文件。在这里，bodyNode 返回正确数量的脚本标签，
html-agility-pack - 如何在不丢失 DOCTYPE 的情况下使用 Agility Pack 从 HTML 中删除注释
我正在尝试从 HTML 中删除不必要的内容。具体来说，我想删除评论。我找到了一个很好的解决方案( Grabbing meta-tags and comments using HTML Agility
Extracting and parsing information from a website using html-agility-pack(使用html-agility-pack从网站提取和解析信息)
The next code extracts from the link下一个代码从链接中提取 https://www.ncbi.nlm.nih.gov/myncbi/1dAdNxivfiO5
Extracting and parsing information from a website using html-agility-pack(使用html-agility-pack从网站提取和解析信息)
下一个代码从链接中提取。一个有引文列表的网站。我的最终目标是提取该信息并将其放入json对象列表中，这样每个对象都可以拥有引用信息。。虽然此代码提取每个引文，但目前它使用以下命令提取第一个PMID值：
agile - 什么时候应该组合和分离用户故事？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 5 年前。 Improve
agile - 用于代码构建的最新敏捷设计方法
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
agile - 在敏捷团队中如何处理客户和迭代？
Closed. This question is opinion-based 。它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文来回答。
agile - 帮助理解单一职责原则
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 3年前关闭。 Improve t
agile - 学生项目团队的最佳软件工程实践？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
agile - 使用Scrum和Sprint进行基础架构改进的最佳方法
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
agile - 敏捷可以帮助单例的开发人员将其编码为业余爱好吗？
Closed. This question is opinion-based。它当前不接受答案。想要改善这个问题吗？更新问题，以便editing this post用事实和引用来回答。 3年前关闭。
agile - 哪些群体应该参与敏捷？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 3年前关闭。 Improve t
agile - 您如何构建开发冲刺？
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q

首页

博学

6Ren·AI

商城

c# - html agility pack url scraping——获取完整的html链接