gpt4 book ai didi

javascript - 使用 Google 脚本解析来自 Google Drive(而不是网页)的 HTML 文件

转载 作者:行者123 更新时间:2023-11-28 04:00:11 24 4
gpt4 key购买 nike

我将我妻子的所有食谱存储在辣椒粉中。我想要做的一件事是将整个食谱数据库导出到电子表格中。 Paprika 仅导出两种格式:一种是它自己专有的 .paprika 格式,该格式是人类无法读取的。另一个是一系列 .html 文件。 HTML 文件包含 hrecipe 元数据,因此我希望可以利用它来提取必要的信息。

我认为遍历文件集并提取所需的所有信息的最佳方法是将它们放入 Google 云端硬盘文件夹中,并使用 Google 表格和脚本提取必要的信息。

所以我的问题是:是否可以使用 Google 脚本从配方 HTML 文件中提取必要的信息? Google Script 有一个 HTML 解析器,可以查看现有网页并从中提取信息,但我似乎无法使其使用实际的 HTML 文件而不是已发布的网页。

如有任何建议或帮助,我们将不胜感激。

最佳答案

这个方法怎么样?使用 DriveApp,您可以从 Google Drive 上的 HTML 文件检索数据。我认为从 HTML 文件中检索数据有两种模式。对于此示例,使用以下 HTML 作为示例 HTML。

示例 HTML:

此示例 HTML 已放在 Google 云端硬盘上。

<html>
<body>
<a href="https://www.google.com/">Google</a>
</body>
</html>

模式 1:

如果 XmlService 可用于您的 HTML 文件,则可以使用此脚本。

var fileId = "### file ID of HTML ###";
var html = DriveApp.getFileById(fileId).getBlob().getDataAsString(); // Retrieve data from HTML file as string.

var data = XmlService.parse(html).getRootElement().getChild('body');
var url = data.getChild('a').getAttribute("href").getValue();
var value = data.getChild('a').getValue();
Logger.log("URL: %s, Value: %s", url, value);

模式 2:

如果 XmlService 无法用于您的 HTML 文件,您可以使用“Parser”库检索数据。示例脚本如下。

var fileId = "### file ID of HTML ###";
var html = DriveApp.getFileById(fileId).getBlob().getDataAsString(); // Retrieve data from HTML file as string.

var url = Parser.data(html).from('<a href="').to('">').build();
var value = Parser.data(html).from('<a href="'+ url + '">').to('</a>').build();
Logger.log("URL: %s, Value: %s", url, value);

两个结果都是网址:https://www.google.com/,值:Google

引用文献:

如果我误解了你的问题,我很抱歉。

关于javascript - 使用 Google 脚本解析来自 Google Drive(而不是网页)的 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47190899/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com