python - 如何提取<table>下的所有源代码并导出为html？-6ren

python - 如何提取下的所有源代码并导出为html？

转载作者：太空宇宙更新时间：2023-11-03 17:55:20

我是 Scrapy 的初学者。我的目标是从大型 HTML 页面中提取选定的表格，然后以 HTML 格式将选定的表格一起导出。所以本质上，我想要的是获得原始网页的较短版本，仅保留 <table>部分。

每个<table>的结构部分如下所示:

<table>
   <tbody>
      <tr>
        <td> 
          <font>

目前，我正在尝试以下蜘蛛代码，但问题是:

它不会保留所有源格式；
<table>和</table>不包括在内；
我不知道如何将抓取的结果保存为 html 格式。

<小时/>

  def parse(self, response):
      hxs = HtmlXPathSelector(response)
      titles = hxs.select("//document/type/sequence/filename/description/text/table")
      items = []
      for titles in titles:
          item = MyHtmlItem()
          item ["htmltext"] = titles.select("node()").extract()
          if (item["htmltext"]):
              items.append(item)
      return items

谁能给我一些建议吗？

最佳答案

如果我理解正确，并且您只需要从页面中提取原始表格 html，那么解决方案非常简单:

def parse(self, response):
    # XPath query to get all tables from response
    tables_selectors = response.xpath('//table')
    tables_html = tables_selectors.extract()
    ...

tables_html 是原始表格 html 中的字符串数组。根据需要进行处理。

一些建议:

你的语法看起来有点过时，看来你使用的是过时的Scrapy手册。

请查看最新文档:official site

使用表时，请小心 XPath 查询中的 tbody 标记。

希望这有帮助!

关于python - 如何提取<table>下的所有源代码并导出为html？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28528778/

文章推荐： c# - 如何指定 C# 泛型类型必须支持 Parse(string)？

文章推荐： python - 使用 python http.client 访问 korbit api

文章推荐： python - 在 Tkinter 中更改多个窗口的背景

文章推荐： python - x += y 和 x = x + y 之间的区别

在浏览器中显示的Java字符串(源代码)
我正在编写一个 Java 应用程序，该应用程序检查网页的源代码，并在满足源代码中的条件时在我的默认浏览器中向我显示该网页。我通过以下方式获取源代码: String source = getUrlSou
安卓蓝牙-源代码
数周以来，我一直在为 Android 上的蓝牙项目而苦苦挣扎。有谁知道我可以去哪里查看 Google 用于使其蓝牙配对和连接逻辑正常工作的实际代码？我浏览了所有的文档、BluetoothChat 应
Hadoop 源代码
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。
特定设备的 Android 源代码
Android 源代码有多个目录，其中包含针对不同设备的代码。此外，在特定目录中，存在显示不同分支和标签的路径。举个例子，在“android/platform/external/iptables”目录
.net - SQLMembershipProvider - 源代码
在哪里可以找到 SQLMembershipProvider (.NET2.0) 的源代码？是可用的么？最佳答案源代码已经发布。 See ScottGu's blog for further de
下载特定的 Android 源代码
我只想知道如何下载特定版本的 Android 源代码。我已经尝试过以下命令 repo init -u https://android.googlesource.com/platform/manifes
frameworks - OpenCL 源代码？
我想看看OpenCL框架是如何实现的。我发现的只是已经编译好的可供下载的库。当然，OpenCL 可以有许多不同的实现，但我想看看其中的一个来了解它是如何完成的。为了确保我自己清楚，OpenCL 框
像专业书籍中一样列出 LaTeX 源代码
latex 源代码列表应该是什么样子才能产生像已知书籍中那样的输出，例如 Spring 框架的输出？我尝试过使用 latex 列表包，但无法生成看起来像下面一样好的东西。因此，我主要对生成类似以下示例
内置函数的 PHP 源代码
PHP 是用 C 语言编写的吗？我在哪里可以在线找到 PHP 源代码而无需下载全部内容？最佳答案 PHP 函数是用 C 编写的 - 您可以在 lxr.php.net 找到可浏览的源代码. 例如:ht
elasticsearch - script_score查询不支持[源代码]
我正在使用Elasticsearch OSS的官方Docker镜像(docker.elastic.co/elasticsearch/elasticsearch-oss:6.2.4)，似乎完全无法使用s
c++ - 在Cython中编译C和C++源代码
我试图在Cython中同时编译C和C++源代码。这是我当前的设置: -setup.py from distutils.core import setup from Cython.Build impor
java - 如何在java中使用selenium获取页面的常规(!)源代码？
好吧，事情是这样的:你们所有人可能都在想同样的事情:您可以使用 driver.getPageSource(); 这部分是正确的。唯一的问题是源代码以一种相当奇怪的方式编译，所有代码都在其中 \&quo
java - TwoLineListItem 源代码
由于 TwoLineListItem 自 API 17 起已被弃用，因此我已采取措施将其替换为自定义 XML 和 ViewHolder。但是，我真的希望我的应用程序看起来与使用 TwoLineList
java - getInputStream() 源代码
要从 HttpURLConnection 获取 InputStream，我们的代码如下 urlConnection.getInputStream(); 如果InputStream是一个Abstract
c++ - 如何编译没有项目文件的C++源代码？
我刚刚开始学习更多关于 C/C++ 的知识，我正在使用 Visual Studio 2013 来管理代码。我正在使用 Tobii EyeX 眼睛注视系统的项目要求我能够稍微调整此代码，但是我不明白如
ios - UIWebView 源代码
我在按钮上有一个IBAction，其中包含以下代码，我尝试使用它来检索 UIWebView 的源代码: - (IBAction)loadInAWebView:(id)sender { [self
调色板生成器的 javascript 源代码
我正在 asp.net 中创建一个网站，我只是想知道有什么方法可以使用 JavaScript 从图像生成调色板吗？类似于 1) http://www.cssdrive.com/imagepalette
c++ - WinKill() 源代码
有人可以分享 WinKill() from AutoIt 的源代码吗？？我想知道它如何处理消息(是/否/取消)以确保它得到正确处理。我想用它来清理桌面上的意外弹出窗口。最佳答案正如我们在下面的
适用于所有平台的 Opencv 源代码
我的问题与 Opencv 的源代码有关。在我看来不同的平台the Opencv website提供不同的代码结构。我只是想知道是否有可能为所有不同的平台提供一个源代码。使用相同的源代码，我可以针对不同
python - 如何将python源代码转换为C++源代码
这个问题在这里已经有了答案: Convert Python program to C/C++ code? [closed] (8 个答案) 关闭 3 年前。我一直在努力寻找一种方法将 .py 源文

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城