gpt4 book ai didi

import.io - 在 import.io 上提取时指定单独的行

转载 作者:行者123 更新时间:2023-12-02 22:48:54 27 4
gpt4 key购买 nike

一定有一个我忽略的非常简单的解决方案 - 我已将 import.io 设置为从维基百科页面 here 中提取我无法指定按字母顺序排列的部分中的每个条目在提取时位于单独的行上 - 训练时它选择所有内容位于同一行上,因此它不可用..有什么想法吗?

最佳答案

维基百科只是一个非常困难的网站,不是从中提取数据(全是 html,没有 Javascript 或 AJAX),而是自动提取。这是由于维基百科是免费且开放编辑的,这导致了数百万种不同的页面结构。

尽管有几种方法可以解决这个问题,但应用它们的难易程度取决于每个用例。您可以通过指定 XPath 来手动训练它,而不是使用我们的点击类型的训练。例如,如果数据始终以表的形式构建,则可以使用 XPath:// table 这只会扫描整个站点中的任何表,然后提取它。然而,这很可能也会得到不需要的表,因此您必须指定哪个表。例如,该站点上的表格具有“wikitable”类。所以我们将其指定为://表[@class="wikitable"]

然后您当然需要确保这同样适用于前锋的所有其他页面。这些数据很容易被人类识别,但要让机器理解是一项艰巨的任务,需要在你要寻找的数据之间找到一个共同元素,并告诉机器人具有这个共同元素的东西就是它应该提取的内容。

谢谢,
梅格

关于import.io - 在 import.io 上提取时指定单独的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31699757/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com