gpt4 book ai didi

java - 是否可以在 solr 中存储完整的 html 页面源代码?

转载 作者:行者123 更新时间:2023-11-29 03:37:20 24 4
gpt4 key购买 nike

在我之前的问题中,我得到的答案是我可以在不使用任何数据库(Is it possible to store data in solr?)的情况下在 solr 中存储小索引(几个站点)数据。我想知道,是否可以在不使用任何数据库的情况下将完整的 html 页面源代码存储在 solr 中?

最佳答案

如果您想抓取网站并将其编入索引,Nutch with Solr 是一个解决方案。
Nutch with Solr Tutorial会让你开始。
但是,Nutch 不会维护带有 html 标签的原始 Solr 代码。

您需要通过下载 html 页面来开发自定义解决方案,然后才能使用 Solr Extracting Request Handler向 Solr 提供 HTML 文件并从 html 文件中提取内容。例如在link

Solr 使用 Apache Tikauploaded html file 中提取内容

您还可以检查HTMLStripCharFilterFactory如果您将数据作为 html 文本提供。

关于java - 是否可以在 solr 中存储完整的 html 页面源代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14829631/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com