python - XPath 不适用于屏幕抓取-6ren

python - XPath 不适用于屏幕抓取

转载作者：太空宇宙更新时间：2023-11-04 01:00:23

25

4

我正在使用 Scrapy 进行屏幕抓取项目，但遇到了 XPath 问题。

我正在尝试从下图中获取 94,218，但我使用的 XPath 和 CSS 无法正常工作。

来自此页面:https://fancy.com/things/280558613/I%27m-Fine-T-Shirt

我用 Scrapy 尝试了多个 XPaths 和 CSS，但一切都返回空白。

这里有一些例子:

response.xpath('/html/body/div[1]/div[1]/div[1]/aside/div[1]/div/div/a[2]/text()').extract()

response.xpath('//*[@id="sidebar"]/div[1]/div/div/a[2]/text()').extract()

response.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "fancyd_list", " " ))])'.extract()

response.xpath(".//*[@id='sidebar']/div[1]/div/div/a[2]/text()")

我已经尝试过 Firebug、Firepath、Chrome Dev Tools 和不同的插件，但 XPath 或 CSS 似乎都不起作用。有人可以提供帮助吗？

实际页面上的代码是:

<a href="#" class="fancyd_list "/>
    6
</a>

一些 XPath 有效，但它们不包含文本，所以它看起来像这样:<a href="#" class="fancyd_list "/></a>

我也试过使用 BeautifulSoup，但它有同样的问题:

print soup.find_all('a',class_='fancyd_list')
[<a class="fancyd_list " href="#"></a>, <a class="fancyd_list " href="#"></a>]

谢谢!

最佳答案

这里的问题是提供的 URL 返回的 HTML 格式错误 <a>标记如下:

<a href="#" class="fancyd_list "/>  # Malformed HTML, <a> tag closes here
    94,218
</a>

这里的第一行包含一个 /在右括号之前，按照 HTML 标准表示 <a> 的完成标签。自从 Scrapy 以来，<a>元素已完成，您无法获取标签之外的文本。

之前使用 BeautifulSoup 的建议在这里可能是个好主意，因为它可以更好地处理格式错误的 HTML 很多。

对于此示例，您可以使用的另一个选项是通过类似于以下内容的方式自行修复 HTML:

new_body = re.sub(r'<a href="#" class="fancyd_list "/>', '<a href="#" class="fancyd_list ">', response.body)
response = response.replace(body=new_body)

然后您可以通过以下方式从响应中进行选择

response.xpath("//div[@class='frm']/div[@class='figure-button']/a[contains(@class, 'fancyd_list')]/text()").extract()

我使用“包含”的原因是因为类名(对我而言)在其名称末尾出现一个空格，因此 Scrapy 对 "a[@class='fancyd_list']" 的检查会失败，因为 "fancyd_list" != "fancyd_list "

关于python - XPath 不适用于屏幕抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33110734/

25

4

0

文章推荐：关于 C 中 fork() 系统调用的困惑

文章推荐： html - VueJS : dropdown items background color

文章推荐： C 字符数组指针

android - 适用:找不到release.keystore
我在我的 Xcode 项目目录中输入了以下内容: keytool -genkey -v -keystore release.keystore -alias mykey -keyalg RSA \
python - Pandas 适用，但访问之前计算的值
假设我有一个像这样的 DataFrame(或 Series): Value 0 0.5 1 0.8 2 -0.2 3 None 4 None 5 None
python - 冗长的 Pandas 适用
我正在对一个 Pandas 系列进行相对繁重的应用。有什么方法可以返回一些打印反馈，说明每次调用函数时在函数内部进行打印还有多远？最佳答案您可以使用跟踪器包装您的函数。以下两个示例，一个基于完成的
python - 当单元格包含列表时， Pandas 适用
我有一个 DataFrame，其中一列包含列表作为单元格内容，如下所示: import pandas as pd df = pd.DataFrame({ 'col_lists': [[1, 2
python - Pandas 适用，但仅适用于满足条件的行
我想使用 Pandas df.apply 但仅限于某些行作为一个例子，我想做这样的事情，但我的实际问题有点复杂: import pandas as pd import math z = pd.Dat
python - 如果条件适用于后续行和分组依据，则 Pandas 适用
我有以下 Pandas 数据框 id dist ds 0 0 0 0 5 1 0 0 7 2 0 0
java - gradle没有java方法的签名(hashmap.getOrDefault)适用
这发生在我尝试使用 Gradle 构建时。由于字符串是对象，因此似乎没有理由发生此错误: No signature of method: java.util.HashMap.getOrDefault(
javascript - Backbone 示例应用程序和 javascript 适用
您好，有人可以解释为什么在 remaining() 函数中的 Backbone 示例应用程序 ( http://backbonejs.org/examples/todos/index.html ) 中
grails - Grails BootStrap:无方法签名:* .addTo *适用
我有两个域类:用户 class User { String username String password String email Date dateCreated
python - 类型错误 : Positional Arguments with pandas. 适用
问题陈述: 一个 pandas dataframe 列系列，same_group 需要根据两个现有列 row 和 col 的值从 bool 值创建。如果两个值在字典 memberships 中具有相似
android - 适用:iOS 7.1 支持 MKMapItem
apporable 报告以下错误: error: unknown type name 'MKMapItem'; did you mean 'MKMapView'? MKMapItem* destina
python - 使用 API 调用时， throttle Pandas 适用
我有一个带有地址列的大型 DataFrame: data addr 0 0.617964 IN,Krishnagiri,635115 1 0.635428 IN,Chennai
c# - 无 Max() 适用 : Sequence contains no elements
我有一个列表list，里面有这样的项目 ElementA: Number=1, Version=1 ElementB: Number=1, Version=2 ElementC: Number=1,
ios - 适用: 'OBJC_CLASS_$_MKMapView' 和 'OBJC_CLASS_$_MKPinAnnotationView' 的编译失败
我正在编译我的源代码，它只是在没有运行应用程序的情况下终止。这是我得到的日志: Build/android-armeabi-debug/com.app4u.portaldorugby/PortalDo
python - 'numpy.float6 4' object has no attribute ' 适用'
我正在尝试根据另一个单元格的值更改单元格值(颜色“红色”或“绿色”)。我运行以下命令: df.loc[0, 'Colour'] = df.loc[0, 'Count'].apply(lambda x:
scalaz List[StateT].sequence - 找不到参数 n 的隐式值 : scalaz. 适用
我想弄清楚如何使用 StateT结合两个 State基于对我的 Scalaz state monad examples 的评论的状态转换器回答。看来我已经很接近了，但是在尝试申请 sequence
c# - 如果源绑定(bind)适用，如何访问快速访问工具栏命令 `Add to Quick Access Tool`
如果我已经为它绑定(bind)了集合，我该如何添加 RibbonLibrary 默认的快速访问项容器。当我从 UI 添加快速访问工具项时，它会抛出 Operation is not valid whi
haskell - 适用:证明 `pure f <*> x = pure (flip ($)) <*> x <*> pure f`
在我学习期间Typoclassopedia我遇到了这个证明，但我不确定我的证明是否正确。问题是: One might imagine a variant of the interchange law

首页

博学

6Ren·AI

商城

python - XPath 不适用于屏幕抓取