gpt4 book ai didi

xidel - 我们可以使用 Xidel 将整个站点的数据提取到搜索文件中吗?

转载 作者:行者123 更新时间:2023-12-05 06:35:41 28 4
gpt4 key购买 nike

背景:我们正在汇总一些网站的内容(经许可),用于另一个应用程序的补充搜索功能。一个例子是https://centenary.bahai.us 的新闻部分。 .为此,我们考虑使用 xidel,因为模板文件范例似乎是一种从 html 中提取数据的优雅方式,例如对于模板:

<h1 class="title">{$title}</h1>?
<div class="node build-mode-full">
{$url:=$url}
<div class="field-field-audio">?
<audio src="{$audio:='https://' || $host || .}"></audio>?
</div>?
<div class="field-field-clip-img">
<a href="{$image:='https://' || $host || .}" class="imagefield-field_clip_img"></a>*
</div>?
<div class="field-field-pubname">{$publication}</div>?
<div class="field-field-historical-date">{$date}</div>?
<div class="location"><div class="adr">{$location}</div>?</div>?
<div class="node-body">{$text}</div>
</div>?

...我们可以运行如下命令:

xidel "https://centenary.bahai.us" -e "$(< template.html)" -f "//a[contains(@href, '/news/')]" --silent --color=never --output-format=json-wrapped > index.json

...这将为我们提供来自 centenary.bahai.us 上所有新闻页面的 json 格式数据。示例文章如下所示:

{
"title": "Bahá’ísm the Religion of Brotherhood",
"url": "https://centenary.bahai.us/news/bahaism-religion-brotherhood",
"audio": "https://centenary.bahai.us/sites/default/files/453_0.mp3",
"image": "https://centenary.bahai.us/sites/default/files/imagecache/lightbox-large/images/press_clippings/03-31-1912_NYT_Bahaism_the_Religion_of_Brotherhood.png",
"publication": "The New York Times",
"date": "March 31, 1912",
"location": "New York, NY",
"text": "A posthumous volume of “Essays in Radical Empiricism,” by William James, will be published in April by Longmans, Green & Co. This house will also bring out “Leo XIII, and Anglican Orders,” by Viscount Halifax, and “Bahá’ísm, the Religion of Brotherhood, and Its Place in the Evolution of Creeds,” by Francis H. Skrine. In the latter an analysis is made of the Gospel of Bahá’u’lláh and his successor. ‘Abdu’l-Bahá — whose arrival in this country is expected early in April — and a forecast is attempted of its influence on civilization."
},

这很漂亮,比 httrack 和 pup 或(上帝保佑)sed 和 regex 的一些混搭要容易得多,但有一些问题:

  1. 我们希望每个文档都有单独的文件,而这给了我们一个大的 json 文件。
  2. 即使使用 --silent 标志,我们仍然会在输出中获得使 json 无效的状态消息,例如 **** Retrieving (GET):https://centenary .bahai.us ******** 处理:https://centenary.bahai.us/****** 当前变量状态: **
  3. 这个过程似乎太脆弱了;如果模板和实际 html 之间存在任何差异,整个过程就会出错,我们什么也得不到。我们希望它只输出一个页面的错误,然后继续下一个 URL。

Xidel 似乎是一个改变游戏规则的工具,它应该可以通过一行命令和一个简单的提取模板文件来完成这项工作;我在这里错过了什么?

最佳答案

$(< template.html)的使用来看我猜你在 Linux 发行版上。在那种情况下,您的引用是错误的。参见 #9 和 #10 here .

由于您使用的是提取模板文件,我会说 --extract-file=template.html将是要使用的参数,但是您的 -e "$(< template.html)"似乎也有效。这对我来说是新的。谢谢。
多亏了 BeniBela 的回答,我才知道 -e @template.html同样有效。

接下来是你的参数顺序错误。我不得不承认,Xidel 的自述文件对此并不太清楚。
xidel 之后应该来--silent --color=never ,并且您显然必须先“关注”一个网址,然后才能进行提取。所以这应该有效:

$ xidel --silent --color=never "https://centenary.bahai.us" \
-f '//div[@class="views-field-title"]/span/a[starts-with(@href,"/news/")]/@href' \
--extract-file=template.html \
--output-format=json-wrapped \
> index.json

我自己几乎从不使用模板,所以我会通过自己构建 json 来做一些不同的事情:

$ xidel -s "https://centenary.bahai.us" -e '
for $x in //div[@class="views-field-title"]/span/a[starts-with(@href,"/news/")]/@href return
file:write(
substring-after($x,"/news/")||".json",
doc($x)/{
"title"://h1/text(),
"url":resolve-uri($x),
"audio"://audio/resolve-uri(@src),
"image"://div[ends-with(@class,"clip-img")]//img/resolve-uri(@src),
"publication"://div[ends-with(@class,"pubname")]/div/normalize-space(div[@class="field-item odd"]),
"date"://div[ends-with(@class,"historical-date")]//span/text(),
"location"://span[@class="locality"]/text(),
"text":string-join(//div[@class="node-body"]//text())
},
{"method":"json","indent":true()}
)
'
  • //div[@class="views-field-title"]/span/a[starts-with(@href,"/news/")]/@href返回当前新闻文章的相对路径:
/news/visit-abdul-baha-abbas
/news/abdul-baha-prays-ascension-church
/news/bahaist-leader-here-interest-world-peace
/news/abdul-baha-abbas-coming-lewis-g-gregory
  • 对于每篇新闻文章,都会打开 url,分析 html 源并将提取的信息保存为缩进/美化的 JSON 文件。第一个,visit-abdul-baha-abbas.json ,例如:
{
"title": "A Visit to ‘Abdu’l-Bahá Abbas",
"url": "https:\/\/centenary.bahai.us\/news\/visit-abdul-baha-abbas",
"audio": "https:\/\/centenary.bahai.us\/sites\/default\/files\/257_0.mp3",
"image": "https:\/\/centenary.bahai.us\/sites\/default\/files\/imagecache\/page-secondary-images\/images\/press_clippings\/04-17-1912%20Utica%20NY%20Press%20A%20Visit%20to%20Abdul%20Baha%20Abbas.png",
"publication": "Utica New York Press",
"date": "April 17, 1912",
"location": "Acca",
"text": "An American Girl Tells of a Memorable Experience in Her Life.[...]"
}

关于xidel - 我们可以使用 Xidel 将整个站点的数据提取到搜索文件中吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49616244/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com