- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何将 solr 与 heritrix 集成?
我想使用 heritrix 归档一个站点,然后使用 solr 在本地索引和搜索该文件。
谢谢
最佳答案
使用 Solr 进行索引的问题在于它是一个纯文本索引(如果您只抓取内部网站并且不关心“pagerank”,这可能没问题)。
使用 Nutch 会为您提供更好的索引,因为它确实使用了 pagerank。
坚果蜡
但是,如果您对使用 Heritrix 不满意并且想要基于 pagerank 的搜索结果,您可以使用 NutchWAX (Nutch Web Archive eXtensions)索引 Heritrix 的输出(这就是 Heritrix 的制造商正在做的事情)。
NutchWAX 旨在用于网络存档,但也可用于创建实时网络的搜索引擎(事实上,这更容易,因为您不会在每次重建索引期间拖拽多年的有值(value)的数据)。
Solr
如果您确实想使用 Heritrix+Solr 来创建一个搜索网站,您可能应该将 Heritrix 中的“ARCWriter”处理器替换为一个将页面内容提交给 Solr 的自定义处理器。
Solr 端只是一个通过 HTTP 发布的 XML 文件,非常简单。
Heritrix 端有点复杂,但 Developer's Manual将让您开始为 Heritrix 1.x 编写处理器(如果您使用的是 --as yet-- unstable 3.x -- 或 discontinued 2.x -- 你需要做更多的工作,因为文档还没有。)。
关于search - 解决方案+遗传,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1665084/
如何将 solr 与 heritrix 集成? 我想使用 heritrix 归档一个站点,然后使用 solr 在本地索引和搜索该文件。 谢谢 最佳答案 使用 Solr 进行索引的问题在于它是一个纯文本
我的任务: 创建一个程序来仅使用基元(如三角形或其他东西)复制图片(作为输入给出)。该程序应使用进化算法来创建输出图片。 我的问题: 我需要发明一种算法来创建种群并检查它们(它们与输入图片的匹配程度
我看过几篇文章和文章,建议使用模拟退火等方法来避免局部最小值/最大值问题。 我不明白为什么如果您从足够大的随机人口开始,这将是必要的。 这只是确保初始人口实际上足够大和随机的另一项检查吗?或者这些技术
我是一名优秀的程序员,十分优秀!