gpt4 book ai didi

hadoop - 从维基百科加载 30000 个文档

转载 作者:可可西里 更新时间:2023-11-01 15:18:20 30 4
gpt4 key购买 nike

我有一个 wikipedia url,我想使用 wiki API 从该页面和其他引用页面加载内容,最多 30000 个文档,我可以遍历 url 并执行此操作,但这不是一种有效的方法。有没有其他方法可以实现这一目标。我需要它来在 hadoop 中填充我的 HDFS。

最佳答案

您可以下载维基媒体软件和数据库图像,设置维基百科并在本地访问它。这是很好的描述,应该比通过网络请求该数量的页面更有效。参见:http://www.igeek.co.za/2009/10/16/how-to-mirror-wikipedia/

还有许多其他来源和经过预处理的页面。问题来了,您打算在下一步中如何处理这些内容。

关于hadoop - 从维基百科加载 30000 个文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13024185/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com