gpt4 book ai didi

python - 如何提取下的所有源代码并导出为html?
转载 作者:太空宇宙 更新时间:2023-11-03 17:55:20 25 4
gpt4 key购买 nike

我是 Scrapy 的初学者。我的目标是从大型 HTML 页面中提取选定的表格,然后以 HTML 格式将选定的表格一起导出。所以本质上,我想要的是获得原始网页的较短版本,仅保留 <table>部分

每个<table>的结构部分如下所示:

<table>
<tbody>
<tr>
<td>
<font>

目前,我正在尝试以下蜘蛛代码,但问题是:

  1. 它不会保留所有源格式;
  2. <table></table>不包括在内;
  3. 我不知道如何将抓取的结果保存为 html 格式。
<小时/>
  def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//document/type/sequence/filename/description/text/table")
items = []
for titles in titles:
item = MyHtmlItem()
item ["htmltext"] = titles.select("node()").extract()
if (item["htmltext"]):
items.append(item)
return items

谁能给我一些建议吗?

最佳答案

如果我理解正确,并且您只需要从页面中提取原始表格 html,那么解决方案非常简单:

def parse(self, response):
# XPath query to get all tables from response
tables_selectors = response.xpath('//table')
tables_html = tables_selectors.extract()
...

tables_html 是原始表格 html 中的字符串数组。根据需要进行处理。

一些建议:

你的语法看起来有点过时,看来你使用的是过时的Scrapy手册。

请查看最新文档:official site

使用表时,请小心 XPath 查询中的 tbody 标记。

希望这有帮助!

关于python - 如何提取<table>下的所有源代码并导出为html?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28528778/

25 4 0