python - 无法访问位于目标元素之外的某些文本-6ren

python - 无法访问位于目标元素之外的某些文本

转载作者：行者123 更新时间：2023-12-01 07:58:55

26

4

我用 scrapy 编写了一个脚本，用于从网页中获取不同问题的答案。问题是答案超出了我当前目标的元素。我知道如果我用于 BeautifulSoup，我可以使用 .next_sibling 获取它们，但如果是 scrapy，我找不到任何想法。

website link

Html 元素如下:

  <p>
   <b>
    <span class="blue">
     Q:1-The NIST Information Security and Privacy Advisory Board (ISPAB) paper "Perspectives on Cloud Computing and Standards" specifies potential advantages and disdvantages of virtualization. Which of the following disadvantages does it include?
    </span>
    <br/>
    Mark one answer:
   </b>
   <br/>
   <input name="quest1" type="checkbox" value="1"/>
   It initiates the risk that malicious software is targeting the VM environment.
   <br/>
   <input name="quest1" type="checkbox" value="2"/>
   It increases overall security risk shared resources.
   <br/>
   <input name="quest1" type="checkbox" value="3"/>
   It creates the possibility that remote attestation may not work.
   <br/>
   <input name="quest1" type="checkbox" value="4"/>
   All of the above
  </p>

到目前为止我已经尝试过:

import requests
from scrapy import Selector

url = "https://www.test-questions.com/csslp-exam-questions-01.php"

res = requests.get(url,headers={"User-Agent":"Mozilla/5.0"})
sel = Selector(res)
for item in sel.css("[name^='quest']::text").getall():
    print(item)

上面的脚本执行时不打印任何内容，也不会抛出任何错误。

上面粘贴的 html 元素的预期输出之一是:

It initiates the risk that malicious software is targeting the VM environment.

我只追求任何 css 选择器解决方案。

How can I grab the answers of different question from that site?

最佳答案

以下简单的 css 选择器和 python 列表函数的组合可以解决此任务:

import scrapy
from scrapy.crawler import CrawlerProcess

class QuestionsSpider(scrapy.Spider):
    name = "TestSpider"
    start_urls = ["https://www.test-questions.com/csslp-exam-questions-01.php"]

    def parse(self,response):
    #select <p> tag elements with questions/answers
        questions_p_tags = [ p for p in response.css("form p")
                             if '<span class="blue"' in p.extract()]
        for p in questions_p_tags:
    #select question and answer variants inside every <p> tag
            item = dict()
            item["question"] = p.css("span.blue::text").extract_first()
    #following list comprehension - select all text, filter empty text elements
    #and select last 4 text elements as answer variants
            item["variants"] = [variant.strip() for variant in p.css("::text").extract() if variant.strip()][-4:]
            yield item

if __name__ == "__main__":
    c = CrawlerProcess({'USER_AGENT':'Mozilla/5.0'})
    c.crawl(QuestionsSpider)
    c.start()

关于python - 无法访问位于目标元素之外的某些文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55810706/

26

4

0

文章推荐： jquery - 模态框与 css 关键帧冲突

文章推荐： java - 如何反转字符串数组？

文章推荐： java - 需要使这个返回语句起作用，如何？

文章推荐：映射值的 Java 泛型

perl - 不能持续到循环 block 之外
我正在努力解决一个问题 Rahul 正在玩一个非常有趣的游戏。他有 N 个圆盘(每个圆盘的半径相等)。每个磁盘都有一个不同的数字，从 1 到 N 与之相关联。磁盘一个接一个地放在一堆中。 Rahul
java - 此请求的时间戳在 recvWindow 之外
我正在尝试使用此代码发出请求: public JsonObject account() throws BinanceApiException { return (new Request
emacs - 如何将所选区域粘贴到 emacs 之外？
我使用的是 Mac OS 和 emacs -nw (终端模式)。我不知道如何在 emacs 之外粘贴东西(已由 M-w 在 emacs -nw 中实现)。我知道emacs -ns可以做到。搜索互
html - 导航栏菜单内容溢出到父 div 之外
我试图让导航栏菜单出现在“标题容器”菜单中，但由于某种原因，导航栏链接流到外面(在修改浏览器窗口之前)。我不明白为什么，但我怀疑它与这一行有关: div class="collapse navbar-
hibernate - 如何将环境细节移到 EAR 之外
我们的项目是在 WAS 6.1/hibernate/struts 上使用 RAD 7.0 开发的中型 Web 应用程序，该应用程序已投入生产。目前我们在属性文件中硬编码了生产系统的 IP 地址，在 h
javascript - 将传单控件放置在 map 之外
我的要求是在传单中创建 N 类型的标记。该列表很大，无法容纳在 map 区域中。我想要类似的东西: http://blog.georepublic.info/2012/leaflet-example
spring - 将某些异常排除在报告给 Sentry 之外
如 docs 中所述，基于 spring-boot 的 Web 服务正在使用 Sentry .它工作正常，但不应将某些异常发送到 Sentry ，例如为了在某些请求上返回 HTTP 状态 410
ios:图层显示在其托管 View 之外
我已经阅读了 Apple Core Animation 文档。它说核心动画没有提供在窗口中实际显示图层的方法，它们必须由 View 托管。当与 View 配对时， View 必须为底层图层提供事件处理
javascript - 哪个事件来检查元素是否在滚动时位于视口(viewport)之外？
我试图在滚动时检查元素是否在我的视口(viewport)内。如果它在我的视口(viewport)之外，我会添加一个类来将元素固定到顶部。我用来确定元素是否在视口(viewport)之外的函数是: i
jQuery:如果用户点击 div 之外
我正在查询中创建一个弹出窗口。悬停时弹出窗口一切正常。当用户的鼠标离开 div 以关闭它时，我让它看到计时器启动。如果他在计时器完成之前再次进入 div，则计时器将被清除。这很好，但是如果用户点击
python - 如何防止玩家移动到给定区域 map 之外？
我使用名为 zonemap 的字典创建了一个 4x6 区域 map 。我在该字典中嵌套了多个字典；每个区域代表玩家可以访问并与之互动的区域。我希望能够将玩家的移动限制在该 4x6 区域，并重新显示他们
jQuery - 如何检测项目当前是否在视口(viewport)之外？
我正在构建一个页面，该页面将使用 ajax 来更新主要内容区域。用户将单击左侧菜单栏中的项目来更新右侧的 div 并包含搜索结果。我想检测用户是否向下滚动到目前为止导致右侧结果 div 移出视口(v
jQuery 拖放不允许我拖动到可滚动 div 之外？
好的，我在 div 中有一个带有拖放类的表格，其溢出设置为“自动”，这允许我隐藏部分时间表，只在底部放置一个滚动条。但是，我只是在可滚动 div 之外创建了一些可放置元素，并且我的可拖动元素无法离开可
c# - 如何可靠地检测项目何时滚动到 View 之外？
我有大量项目绑定(bind)到 ListBox，VirtualizingStackPanel 设置为它的 ItemsPanel。随着用户滚动和项目容器的创建，我做了一些工作来用数据填充项目(使用数据库
c# - 将类成员的范围限制在私有(private)之外
我想知道是否有一种方法可以将类成员的访问范围专门限定为在 C# 中获取/设置实现，以减少我意外直接访问它们的可能性。类似 private 的东西，但只允许 get/set 访问它，我想我可以将每个变量
swift - 如何使模态视图出现在 Controller 之外？
我正在尝试编写一个小游戏，以应用我自己在本类(class)中学到的概念。当游戏打开时，我想要一个自定义模态视图来告诉用户如何玩。同样，当他们输了时，我想呈现一个结果页面，该页面将位于 if 语句内。我
javascript - 我怎样才能让这个下拉列表总是显示在父 div 之外？
我有一个非常具体的 HTML/CSS 和/或 JS 问题。我在 this fiddle here 创建了一个示例显示问题。我有一个可滚动的 div，它是一个表的父级: ...我的表格行之一包
java - 将二进制文件复制到 jar 之外
我的 jar 文件中打包了一个 exe，我试图将它复制到一个临时位置，以便我可以使用 Desktop.browse() 运行它，为此我设置了一个使用 class.getResourceAsStream
javascript - 无法让我的变量将其值保留在 getJSON 之外
您好，我对这段代码有疑问。我的问题是第一个 console.log(smile_per_sec) 给了我需要的值，但是第二个给了我声明变量时给它的值。 $.getJSON( twitter
javascript - 传单标记弹出窗口延伸到 map 之外
我必须更改标记弹出窗口的默认大小以容纳我想放入其中的数据。我更改了一些 map 设置，因此当用户将其拖出 View 时，它总是会弹回最大范围。我遇到的问题是，对于靠近边缘的标记，当它的弹出窗口打开时，

首页

博学

6Ren·AI

商城

python - 无法访问位于目标元素之外的某些文本