gpt4 book ai didi

elasticsearch - 使用ElasticSearch索引网页时跳过常见/重复部分

转载 作者:行者123 更新时间:2023-12-03 00:24:35 24 4
gpt4 key购买 nike

我还没有任何关于ElasticSearch的经验,但是从我的阅读中,我认为它最适合我的需求。我有一个网络抓取工具,可抓取某些域的页面。
我想将这些页面输入SE,并提供一个前端界面来搜索抓取的内容。我正在构建某种垂直搜索引擎。

但是众所周知,一个主机的网页通常只包含一小部分独特的内容,其中很大一部分是通用的。页脚,页眉,菜单等在每个页面上都相同。

ElasticSearch是否有内置的智能功能,可以过滤出通用部分并仅搜索真实内容?

最佳答案

将Web内容泵入Elastic并不是很困难,所以我假设您对此有所欠缺。 =)

我认为这篇文章对于理解如何索引/搜索网页非常有用:

http://blog.urx.com/urx-blog/2014/9/4/the-science-of-crawl-part-1-deduplication-of-web-content

这是一个复杂的问题,他们有一些非常详细的信息。在Elastic中,我本人一无所知,它可以帮助您消除重复等。

关于elasticsearch - 使用ElasticSearch索引网页时跳过常见/重复部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27069031/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com