python - Scrapy 和 XPath 通用选择-6ren

python - Scrapy 和 XPath 通用选择

转载作者：太空宇宙更新时间：2023-11-04 06:20:12

25

4

我刚刚开始使用 Scrapy，通过一些示例并自己编写了一个 spider，但现在我在选择文本数据时遇到了问题。例如如果表格单元格中的文本并非始终采用唯一格式，我将如何仅选择该文本:

<table>
 <tr>
    <td>
        <div id="somediv1">
              <span>blablabla</span>
         </div>
    </td>
    <td>
        <div id="somediv2">
              <span>text2</span>
         </div>
          <div id="somediv3">
              <span>text3</span>
         </div>

         <span>text4</span>
    </td>
 </tr>
</table>

因此，单元格内的文本将嵌套在未知标签内，当然我只想提取没有任何标签的干净文本。

最佳答案

使用:

//table//td//text()[normalize-space()]

这会选择作为 td 的后代的任何非全空白文本节点，而 td 是 XML 文档的 table 元素的后代。

基于 XSLT 的验证:

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output method="text"/>
 <xsl:strip-space elements="*"/>

 <xsl:template match="node()|@*">
     <xsl:for-each select="//table//td//text()[normalize-space()]">
       <xsl:copy-of select="."/>
=============   
     </xsl:for-each>
 </xsl:template>
</xsl:stylesheet>

当此转换应用于提供的 XML 文档时:

<table>
    <tr>
        <td>
            <div id="somediv1">
                <span>blablabla</span>
            </div>
        </td>
        <td>
            <div id="somediv2">
                <span>text2</span>
            </div>
            <div id="somediv3">
                <span>text3</span>
            </div>
            <span>text4</span>
        </td>
    </tr>
</table>

计算 XPath 表达式并将所有选定的文本节点复制到输出，使用视觉上独特的分隔符字符串:

blablabla
=============   
     text2
=============   
     text3
=============   
     text4
=============

更新:

如果源 XML 文档位于默认命名空间中，则应更改上述 XPath 表达式以说明这一事实:

//x:table//x:td//text()[normalize-space()

其中前缀 "x" 绑定(bind)到源 XML 文档的默认命名空间。

这是一个完整的示例，基于 XSLT:

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:x="http://www.w3.org/1999/xhtml">
 <xsl:output method="text"/>
 <xsl:strip-space elements="*"/>

 <xsl:template match="node()|@*">
     <xsl:for-each select="//x:table//x:td//text()[normalize-space()]">
       <xsl:copy-of select="."/>
=============   
     </xsl:for-each>
 </xsl:template>
</xsl:stylesheet>

当此转换应用于以下 XML 文档时(提供的文档，但放在默认的(XHTML)命名空间中:

<table xmlns="http://www.w3.org/1999/xhtml">
    <tr>
        <td>
            <div id="somediv1">
                <span>blablabla</span>
            </div>
        </td>
        <td>
            <div id="somediv2">
                <span>text2</span>
            </div>
            <div id="somediv3">
                <span>text3</span>
            </div>
            <span>text4</span>
        </td>
    </tr>
</table>

再次产生相同的正确结果:

blablabla
=============   
     text2
=============   
     text3
=============   
     text4
=============

关于python - Scrapy 和 XPath 通用选择，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12919033/

25

4

0

文章推荐： python - unittest 属性在 Python 中是否可变？

文章推荐： java - 打包到jar时配置log4j.properties文件位置

java - AppFuse 通用/通用 DAO 和管理器使用
我使用 AppFuse 创建项目已经有一段时间了。我已经知道有两种方法可以开发 DAO 和 Manager 类: GenericDao/GenericManager 方法 UniversalDao/U
c++ - 什么 C++(通用 (c/c++) 与 (通用 c)/c++ )
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
基于Java子线程中的异常处理方法(通用)
在普通的单线程程序中，捕获异常只需要通过try ... catch ... finally ...代码块就可以了。那么，在并发情况下，比如在父线程中启动了子线程，如何在父线程中捕获来自子线程的异常，
通用 typescript 将下划线对象转换为驼峰式大小写
假设我有一个这样的界面 interface Example { first_name: string, last_name: string, home_town: string
Mercurial 通用/本地文件
我已经成为 hg 用户几年了，对此我很高兴! 我必须开始一个我以前从未做过的项目。我们的想法是开发一个具有批处理模式和 GUI 的软件。因此，批处理模式和 GUI 模式都有共同的源，但每种模式也都包
Silverlight 通用.xaml
我可以在Silverlight中使用generic.xaml来设置应用程序中所有TextBlock的样式吗？我原以为它会起作用，但它没
Java map 通用
顶部 map 有 3 个子 map ，每个子 map 都有不同的对象。像下面的代码，如何将通用添加到 map 顶部？ Map top = new ConcurrentHashMap();
java - 通用 HashMap
我想创建一个hashmap，其中键是接口(interface)A，值是接口(interface)B。然后我想用实现A和B的类来初始化它。是否可以使用java泛型来做到这一点？也就是说，我想要类似的东
java - 我想扩展枚举和对象(通用)
Enum 位于 java.lang.Enum 中，Object 位于 java.lang.Object 中>。那么，为什么 Enum 不是 Object 呢？ (我收到一个java.lang.Clas
java - 通用 HashMap
我有一种方法，check，它有两个 HashMap 作为参数。这些映射的键是 String，值是 String 或 Arraylist。哪个是更好的解决方案: public static boole
iphone - 如何将为iPhone创建的项目更改为ipad(通用)？
我启动了针对iPhone的应用程序，现在我也想将其应用程序用于iPad。当我开始做iPhone项目时，即使我添加了iPad xib，它也无法正确显示，如何转换我的项目同时适用于iPhone和iPad(
c++ - 通用 Lambda
这行代码(代码1)有什么区别 auto l1 = [](auto a) { static int l = 0; std::cout operator() for type const char*) 被
scala - 通用#to，但带有字段名称？
使用 Generic#to，我可以获得 case class 的 HList 表示: import shapeless._ case class F(x: Int, y: String) scala>
java - 通用 BiDiMap
我有一个 BiDiMap 类。如何使其通用，不仅接受 String 而且接受 Object 类型的对象作为输入参数，同时保持所有原始函数正常工作。例如，我希望能够使用函数 put() 和 Object
java - 通用 for-each 循环的困难
我在编译 foreach 循环时遇到问题。我很确定这是我的泛型处理的问题，因为该错误是对象兼容性问题。我已搜索解决方案，但找不到任何可以解决该问题的内容。这是定义 Iterable adjList
java - 通用 - 调用传入参数的对象的实际方法
大约有 6 个 POJO 类(域实体、DTO、DMO)都具有几乎相同的字段。为了从一个对象转换为另一个对象，我传递一个对象并调用它的 getter 将其设置到另一个对象中。 private UserT
Javascript 通用 For 循环
有没有什么方法可以创建一个通用的 for 循环，它可以正确地循环遍历数组或对象？我知道我可以编写以下 for 循环，但它也会遍历将添加到数组的其他属性。 for (item in x) { co
javascript - 通用 JavaScript
我已经有一段时间没有写js了，显然有点生疏了。试图理解以下问题。 getCurrentPosition successCallback 中的警报正确显示纬度，但最后一行警报未定义。为什么我的 clie
iphone - 通用 UIViewController
请帮助我，我从来没有用 xib 为 iPhone/iPad 制作过通用的 UIViewControllers。如何使用 .m 和 .h 文件以及 _iphone.xib 和 _ipad.xib 创建类
Swift 通用 URLRequest
我正在尝试创建一个 createRequest 函数，我可以将其重新用于我的所有网络调用，有些需要发布 JSON 而其他则不需要，所以我正在考虑创建一个采用可选通用对象的函数；理论上是这样的: str

首页

博学

6Ren·AI

商城

python - Scrapy 和 XPath 通用选择