gpt4 book ai didi

ruby - 维基引用API?

转载 作者:数据小太阳 更新时间:2023-10-29 07:06:45 26 4
gpt4 key购买 nike

我想通过 JSON 获取 Wikiquote 页面的结构化版本(基本上我需要所有短语)

示例: http://en.wikiquote.org/wiki/Fight_Club_(film)

我试过:http://en.wikiquote.org/w/api.php?format=xml&action=parse&page=Fight_Club_(film)&prop=text

但我得到了所有 HTML 源代码。我需要每个 pharse 作为数组的一个元素

我如何使用 DBPEDIA 实现这一目标?

http://f.cl.ly/items/2v3w1U2c0J0z1M0V0k0b/Schermata%2012-2456269%20alle%2013.06.24.png

最佳答案

首先,我不确定您是否可以使用 DBpedia 查询 wiki 引文,其次,DBpedia 仅以结构化方式为您提供信息框数据,它不会以任何方式以结构化方式提供文章内容。您可以使用 Media wiki api 来获取数据,而不是有点麻烦


编辑

您正在尝试的 URI 为您提供了一个文本,因此这将使事情变得更容易,但并非完全如此。

在您的控制台中尝试这段代码:

require 'Nokogiri'

content = JSON.parse(open("http://en.wikiquote.org/w/api.php?format=json&action=parse&page=Fight_Club_%28film%29&prop=text").read)

data = content['parse']['text']['*']

xpath_data = Nokogiri::HTML data

xpath_data.xpath("//ul/li").map{|data_node| data_node.text}

这是我最接近的答案,当然这并不完全正确,因为你会得到很多不必要的数据。但是,如果您深入研究 Nokogirixpath 并找出如何定位您需要的节点,您可以获得一个解决方案,该解决方案将为您提供至少 90% 的正确引用时间。

关于ruby - 维基引用API?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13762688/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com