- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在 C# 程序中使用 HtmlAgilityPack 解析网页的一部分。以下是页面这一部分的简化版本(编辑于 2015 年 1 月 30 日下午 2:40 EST):
<html>
<body>
<div id="main-box">
<div>
<div>...</div>
<div>
<div class="other-classes row-box">
<div>...</div>
<div>...</div>
<div>
<p>
<a href="/some/other/path">
<img src="/path/to/img" />
</a>
</p>
<p>
...
<a href="/test/path?a=123">Correct</a> extra text
</p>
</div>
<div>
...
<p>
<ul>
...
<li>
<span>
<a href="/test/path?a=456&b=123">Never Selected</a>
and <a href="/test/path?a=789">Never Selected</a>.
</span>
</li>
</ul>
</p>
</div>
...
</div>
<div class="other-classes row-box">
<div>...</div>
<div>...</div>
<div>
<p>
No "a" tag this time
</p>
</div>
<div>
<p>
<ul>
<li>
<span>
<span style="display:none;">
<a href="/some/other/path">Never Selected</a>
</span>
</span>
</li>
<li>
<span>
<a href="/test/path?a=abc&b=123">Correct</a>
and <a href="/test/path?a=def">Wrongly Selected</a>.
</span>
</li>
</ul>
</p>
</div>
...
</div>
<div class="other-classes row-box">
<div>...</div>
<div>...</div>
<div>
<p>
<span>
<a href="/test/path?a=ghi">Correct</a>
</span>
</p>
<p>
...
<a href="/test/path?a=jkl">Wrongly Selected</a> extra text
</p>
</div>
<div>
<p>
<ul>
...
<li>
<span>
<a href="/test/path?a=mno&b=123">Never Selected</a>
and <a href="/test/path?a=pqr">Never Selected</a>.
</span>
</li>
</ul>
</p>
</div>
...
</div>
</div>
</div>
</div>
</body>
</html>
我试图在每个 div 的第 3 个或第 4 个子 div 中使用 GET 参数“a”获取第一个也是唯一的第一个“a”标签,类为“row-box”(那些带有单词在上面的例子中“正确”)。我提出了以下 XPath,它获取这些节点,并且仅在 Chrome 的检查器和 Firefox 的 Firepath 附加组件中获取这些节点(为了易读性而包装):
//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
(position() = 3 or position() = 4) and descendant::a[
contains(@href, "a=")
]
][1]/descendant::a[contains(@href, "a=")][1]
但是,当我使用 HttpWebRequest 加载此页面,将响应流加载到 HtmlDocument 对象中,并使用此 XPath 在其 DocumentNode 属性上调用 SelectNodes(xpath) 时,它不仅返回三个正确的节点,还返回两个标记在上面的示例中使用文本“错误选择”。我注意到这实际上与我使用上面的 XPath 相同,只是没有最后一个“[1]”,就像这样(为便于阅读而包装):
//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
(position() = 3 or position() = 4) and descendant::a[
contains(@href, "a=")
]
][1]/descendant::a[contains(@href, "a=")]
我已经确保我使用的是最新版本的 HtmlAgilityPack,尝试了我的 XPath 的几个变体以确定它是否达到了一些任意的最大长度或其他类似的简单问题,并尝试研究类似的问题但没有成功。我尝试使用相同的基本概念组合一个更简单的 HTML 结构进行测试,但无法重现问题,因此我怀疑 HtmlAgilityPack 如何解析此结构中的某些内容可能存在一些微妙的问题。
如果有人知道什么可能导致这个问题,或者有更好的方法来编写一个 XPath 表达式,它将获得正确的节点并且希望不会在 HtmlAgilityPack 中引起问题,我将不胜感激。
编辑
按照建议,这是我正在使用的 C# 代码的简化版本,我已确认它确实为我重现了问题。
using System;
using System.Net;
using HtmlAgilityPack;
...
static void Main(string[] args)
{
string url = "http://www.deerso.com/test.html";
string xpath = "//div[@id=\"main-box\"]/div/div[2]/div[contains(@class, \"row-box\")]/div[(position() = 3 or position() = 4) and descendant::a[contains(@href, \"a=\")]][1]/descendant::a[contains(@href, \"a=\")][1]";
int statusCode;
string htmlText;
HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
request.Accept = "text/html,*/*";
request.Proxy = new WebProxy();
request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0";
using (var response = (WebResponse)request.GetResponse())
{
statusCode = (int)((HttpWebResponse)response).StatusCode;
using (var stream = response.GetResponseStream())
{
if (stream != null)
{
using (var reader = new System.IO.StreamReader(stream))
{
htmlText = reader.ReadToEnd();
}
}
else
{
Console.WriteLine("Request to '{0}' failed, response stream was null", url);
htmlText = null;
return;
}
}
}
HtmlNode.ElementsFlags.Remove("form"); //fix for forms
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlText);
HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes(xpath);
foreach (HtmlNode node in nodes)
{
Console.WriteLine("Node Found:");
Console.WriteLine("Text: {0}", node.InnerText);
Console.WriteLine("Href: {0}", node.Attributes["href"].Value);
Console.WriteLine();
}
Console.WriteLine("Done!");
}
最佳答案
基于更新的 Html 的新答案
我们不能使用 //a[contains(@href,'a=')][1]
过滤器,因为那是选择第一个 <a>
来自其直接父级的元素。
我们需要添加括号以在过滤器中包含后代运算符,即
(//a[contains(@href,'a=')])[1]
但是,如果我们将其扩展以将第一个后代过滤器应用于另一个节点集中的每个节点,则生成的 xpath 表达式将无效:
//div[contains(@class,'row-box')](//a[contains(@href,'a=')])[1]
我认为我们需要将其分为两步:
在 C# 中,这看起来像:
// Get the <div> elements we know are ancestors to the <a> elements we want
HtmlNodeCollection topDivs = doc.DocumentNode.SelectNodes("//a[contains(@href,'?a=')]/ancestor::div[contains(@class,'row-box')]");
// Create a new list to hold the <a> elements
List<HtmlNode> linksWeWant = new List<HtmlNode>(topDivs.Count)
// Iterate through the <div> elements and get the first descendant
foreach(var div in topDivs)
{
linksWeWant.Add(div.SelectSingleNode("(//a[contains(@href,'?a=')])[1]"));
}
使用这个 page作为指南,我将 xpath 表达式放在一起:
当我在 HtmlAgilityPack 中运行它时,我只返回了这三个元素:
<a href = "/test/path?a=123">
<a href = "/test/path?a=abc&b=123">
<a href = "/test/path?a=ghi">
下面是表达式的分解:
//div[contains(@class,'row-box')] -> Get nodeset of <div class="*row-box*"> elements
/descendant::a -> From here get all descendant <a> elements
[contains(@href,'a=') and position()=1] -> Filter according to href value and element being the first descendant
我认为您问题中 xpath 的主要区别是 /descendant::a[contains(@href,'a=') and position()=1]
对比/descendant::a[contains(@href,'a=')][1]
.应用 [1]
分别作为第一个 child 而不是第一个后代进行过滤。
关于c# - XPath 在浏览器和 HtmlAgilityPack 中给出不同的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28224299/
HTML En son haber 01:029.023 代码 Dim request2 As HttpWebRequest = WebRequest.C
我正在使用 HtmlAgilityPack。我使用以下字符串创建一个 HtmlDocument 和 LoadHtml: OneTwo 这会做一些意想不到的事情。首先,它给出了两个解析器错误,EndTa
我需要从博客中获取一些帖子。一切都很顺利,直到我想获得帖子创建日期。它的 DOM 树是: div class="stories-feed__container" -> article -
我需要获取网页上的总字数。这个方法返回的数字是336。但是当我从wordcounter.net手动查看时,大约是1192个字。我怎样才能得到文章的字数? int kelimeSayisi()
使用 HtmlAgilityPack 和 c# 4.0 如何确定页面是否被重定向。我正在使用这种方法来加载页面。 HtmlDocument hdMyDoc = hwWeb.Load(srPageUrl
我正在尝试使用 HtmlAgilityPack 获取计时器的值,但是当我通过元素 ID 获取内部文本时,它会返回 --:--:-- 既然使用了AJAX,有什么方法可以获取时间值吗? 最佳答案 通过使用
jQuery改变后是否可以获取HtmlDocument?例如,在下次更改后通过“myId”获取元素。 js代码: $(document).ready(function () { $("#myC
我有以下 html 元素: MyString buttonText So,
我的目标是从网站上读出特定的容器/标签/属性(出于我的爱好),一切正常,除了为我的值(value)获取德语翻译(我通常在浏览器中手动打开网站时得到(可能是网站从用户代理获取特定信息),但如果我使用我的
是否可以在使用 HTMLAgilityPack 时忽略解析错误? 最佳答案 作为suggested by TrueWill ,您可能需要先清理 HTML,然后再尝试使用 HTMLAgilityPack
我正在使用 HtmlAgilityPack 在 C# Asp.Net 中执行 Scraping,到目前为止,我在从多个 Web 执行 Scratch 时没有遇到问题,但是,尝试弹出以下代码时出现错误
我在服务器上的解析器中使用 HTMLAgilityPack,但我正在解析的其中一个网站出现问题:每天早上 6 点左右,他们往往会关闭服务器进行维护,这会抛出 HTMLWeb 的 Load() 方法,并
这是我的html代码。如何在每个 div 标签后选择第一个链接(a) 我试过只使用一个斜杠://div[@class="test
我有异常抛出 gzip 不受支持。这就是我使用加载页面的全部内容,关于如何允许 gzip 的任何想法? HtmlWeb hwObject = new HtmlWeb();
我正在 SharePoint Foundation 中开发 C# ASP .NET WebPart。 一切正常,现在我想解析一个 HTML 页面以获取所有 ImagePaths 并将图像保存在 HD/
我一直在尝试使用 Html Agility Pack 在 Html 中附加一个新节点。 这是我的示例 Html
我想用这段代码解析一个 html 文件: ...... 问题是 HtmlAgilityPack 会自动关闭 div 结束标记之前的表单标记: ......所以当我解析表单时,一些表单元素丢失了。 (我
一般来说,我经常处理 html,并且总是使用 Regex 来获取结果。不过,每次我寻求帮助时,每个人都建议使用 HTML 解析器,例如 HTMLAgilitypack。 我刚刚试过了,伙计,现在对我来
当我删除一个节点(使用 keepGrandChildren )时,该节点同时包含文本和子节点,文本将一直推到子节点之后,而不是留在其原始位置。 示例: var doc = new HtmlDocume
我使用这段代码来获取页面信息但是现在站点已经更改并且我的应用程序返回空错误。 HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDo
我是一名优秀的程序员,十分优秀!