gpt4 book ai didi

c# - 如何使用 XPath/HTMLAgilityPack 读取 JavaScript 对象

转载 作者:行者123 更新时间:2023-11-28 02:06:18 25 4
gpt4 key购买 nike

对于我的爬虫项目,我需要从 JavaScript 对象获取产品详细信息。

如何从以下 JavaScript 中有效获取对象详细信息?我使用 XPath 和 HTMLAgilityPack。

<script type="text/javascript">
var product = {
identifier: '2051189775', //PRODUCT ID
fn: 'Fit- Whiskered Dark Wash Skirt',
category: ['sale'],
brand: 'Brand Name',
price: '22.90', // this would be the discount price
amount: '31.80', // this would be the original price
currency: 'USD',
//List can me even more.
};
</script>

我之前没有尝试过从 JavaScript 对象获取详细信息。我直接从其他爬虫的 HTML 中获取详细信息。

最佳答案

由于 HTML Agility Pack 不评估 HTML 的任何内容,因此 javascript 代码应仅被视为纯文本。使用 SelectSingleNode 方法找到 Javascript 片段,然后只需抓取 InnerHtml 即可获取内容。

要么找到一个 C# javascript 解析器(例如 Iron JS),要么使用标准文本操作技术(String.*Regex)编写一个解析器来提取您需要的位。正在追寻。

一旦你有了大括号之间的位,你就可以使用前面提到的解析器或像 Json.NET 这样的库来解析它们。 ,因为大括号之间的部分似乎是有效的 json。

关于c# - 如何使用 XPath/HTMLAgilityPack 读取 JavaScript 对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17740821/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com