python - 如何使用 scrapy Selector 获取节点的 innerHTML？-6ren

python - 如何使用 scrapy Selector 获取节点的 innerHTML？

转载作者：太空狗更新时间：2023-10-29 14:06:01

24

4

假设有一些 html 片段，例如:

<a>
   text in a
   <b>text in b</b>
   <c>text in c</c>
</a>
<a>
   <b>text in b</b>
   text in a
   <c>text in c</c>
</a>

我想在其中提取标签内的文本，但在保留其文本的同时排除这些标签，例如，我想在上面提取的内容就像“文本中的文本在 b 中的文本在 c 中”和“文本在 b 中文本公司中的文本”。现在我可以使用 scrapy Selector css() 函数获取节点，那么我该如何处理这些节点以获得我想要的呢？任何想法将不胜感激，谢谢!

最佳答案

这是我设法做到的:

from scrapy.selector import Selector

sel = Selector(text = html_string)

for node in sel.css('a *::text'):
    print node.extract()

假设 html_string 是一个保存问题中 html 的变量，此代码会产生以下输出:

   text in a

text in b


text in c




text in b

   text in a

text in c

选择器 a *::text() 匹配所有 a 节点的后代文本节点。

关于python - 如何使用 scrapy Selector 获取节点的 innerHTML？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28658047/

24

4

0

文章推荐： android - 如何在 buildToolsVersion 23 中使用 android.support.v8

文章推荐： python - heroku 上的 Django 1.8 部署错误

文章推荐： android - 编译SDK会影响Android函数的返回值吗？

文章推荐： git - 使用git笔记的多个分支

css - selector > selector 和 selector 选择器有什么区别？
我想知道这两者之间有什么不同 .myClass/DomElement .myotherclassinsidethatelement 和 .myClass/DomElement > .myothercl
jquery - 何时在 ("selector") 上使用以及何时在 ("selector", "selector") 上使用
使用 jQuery on() 版本 1.7。我通常这样绑定(bind)我的事件: $(".foo").on("click", function() { console.log("foo cli
javascript - jQuery 找到 .Selector 但不是嵌套选择器 (.selector .selector)
我想找到与选择器匹配的所有元素，但如果它已经包含在匹配元素中则不查找。 $('#container').find('.child').not('.child .child'); 请注意，.child
html - 如何结合 :not Selector with > Selector?
我有一个看起来像这样的无序列表，但更广泛: Parent Category 2 Parent Category 2 Parent Category 3
css - 为什么是:not() selector not working with the * selector?
这个问题在这里已经有了答案: CSS negation pseudo-class :not() for parent/ancestor elements (2 个答案) 关闭 4 年前。
css - 可以CSS :not selector target :before and :after selectors
我希望使用 CSS :not() 来定位 before 选择器。这可能吗？示例: https://jsfiddle.net/uuq62b8d/ a.button:before { content
jquery - $.each(selector) 和 $(selector).each() 有什么区别
这有什么区别: $.each($('#myTable input[name="deleteItem[]"]:checked').do_something()); 还有这个: $('#myTable i
jQuery :not() selector combined with Attribute Contains selector
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
jquery-selectors - jQuery李:has(ul) selector issue
我正在使用 UL LI 列表和 jQuery 创建一棵树。我使用了 jQuery 选择器 jQuery(li:has(ul)) 查找所有具有子节点的列表节点，然后向其添加单击事件。 jQuery(li
jQuery : Difference between String selector and function selector?
我真的不知道如何命名这两种方法，所以请原谅我这样调用它们。字符串选择器 $("#myList li").eq(3); 函数选择器 $("#myList li:eq(3)"); 据我所知，他们都做同样
css - :not (CSS selector) dealing with threaded selectors
我有以下代码: .. 我正在使用以下 CSS 来排除具有“main-l tbl”类的表: table:not(.main-l .views-table) { .. } 我注
javascript - "jQuery(selector)"和 "$(selector)"和有什么区别？
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: What is the difference between $ and jQuery 我注意到使用“jQuery(
javascript - CSS :not() selector with selector list incoming
我有许多 css 选择器和许多选择器异常，所以我使用 :not 将它们排除在外... 示例(只是一些我不需要的选择器): [class*="-dashboard-"]:not([class$="-bi
ios - CADisplayLink的displayLinkWithTarget有什么区别 :selector: and UIScreen's displayLinkWithTarget:selector:?
CADisplayLink 有这个方法是有道理的，但我很好奇为什么 UIScreen 也会有它。最佳答案文档说屏幕提供的显示链接与该屏幕相关联。但是，查看官方文档，与任何屏幕都没有明显的关系；显示
javascript - $ ("selector") 和 $ ("selector").toArray() 有什么区别
我在这里阅读了关于 toArray() 的文档，并在控制台中对其进行了测试。我找不到在选择器上调用 toArray() 和调用选择器本身之间的区别。两种方式都得到了完全相同的结果，这是一个与选择器匹
jQuery find $.find ('selector' ) 与 $ ('selector' ) 区别
我有一个问题，为什么这两个代码片段不同。 $('#ctl00_DDMenu1_HyperLink1') //jQuery(a#ctl00_DDMenu1_HyperLink1 Default.asp
php - 如何使用:not selector in symfony's css selector component
我想通过以下方式模拟我可以在 jQuery 中实现的目标$('.someClass:not(.hidden)') 我试过下面的代码。 $crawler->filter('someClass:not(.
Java:Selector.keys() 和 Selector.selectedKeys() 有什么区别？
这个问题不太可能对任何 future 的访客有帮助；它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用，visit the
php - 如何使用:not selector in symfony's css selector component
我想通过以下方式模拟我可以在 jQuery 中实现的目标$('.someClass:not(.hidden)') 我试过下面的代码。 $crawler->filter('someClass:not(.
rust - Change selector in match when selector is a mutable reference
我想根据 Iterator::next 中当前枚举变体的某些属性更改枚举变体。我有两次尝试，都没有编译: enum Test { A(Vec), B, } impl Iterator

首页

博学

6Ren·AI

商城

python - 如何使用 scrapy Selector 获取节点的 innerHTML？