gpt4 book ai didi

lucene - 推荐使用 Lucene 或 Solr 的爬虫工具?

转载 作者:行者123 更新时间:2023-12-03 14:41:10 27 4
gpt4 key购买 nike

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center为指导。




8年前关闭。




什么是用于对抗 HTML 和 XML 文档(本地或基于 Web)并且在 Lucene/Solr 解决方案空间中运行良好的良好爬虫(蜘蛛)?可以是基于 Java 的,但不是必须的。

最佳答案

在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用。新的 DataImportHandler 是导入结构化数据的良好开端,但没有用于 Solr 的良好文档摄取管道。 Nutch 确实有效,但 Nutch 爬虫和 Solr 之间的集成有些笨拙。
我已经尝试了我能找到的所有开源爬虫,但没有一个与 Solr 集成开箱即用。
密切关注 OpenPipeline 和 Apache Tika。

关于lucene - 推荐使用 Lucene 或 Solr 的爬虫工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/282654/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com