search - 构建网络搜索引擎-6ren

search - 构建网络搜索引擎

转载作者：行者123 更新时间：2023-12-02 02:08:12

25

4

我一直对开发网络搜索引擎感兴趣。什么是一个好的开始？我听说过 Lucene，但我对 Java 不是很了解。还有其他好的资源或开源项目吗？

我知道这是一项艰巨的任务，但这也是吸引力的一部分。我并不是想创建下一个 Google，只是想用它来搜索我可能感兴趣的网站子集。

最佳答案

搜索引擎有几个部分。从广义上讲，以一种无可救药的一般方式(各位，如果您觉得可以添加更好的描述、链接等，请随意编辑):

抓取工具。这是通过网络、抓取页面并将有关页面的信息存储到某个中央数据存储中的部分。除了文本本身之外，您还需要诸如访问它的时间等信息。爬虫需要足够聪明，知道访问某些域的频率，遵守 robots.txt 约定等。
解析器。这会读取爬虫获取的数据，解析它，保存所需的任何元数据，丢弃垃圾，并可能向爬虫提出下次要获取的内容的建议。
索引器。读取解析器解析的内容，并为网页上找到的术语创建倒排索引。它可以像您希望的那样智能——应用 NLP 技术来创建概念索引、交叉链接事物、插入同义词等。
排名引擎。给定几千个匹配“apple”的 URL，您如何确定哪个结果是最好的？只是索引不会为您提供该信息。您需要分析文本、链接结构以及您想要查看的任何其他部分，并创建一些分数。这可能完全是即时完成的(这真的很难)，或者基于“专家”的一些预先计算的概念(参见 PageRank 等)。
前端。某些东西需要接收用户查询、命中中央引擎并做出响应；这需要智能地缓存结果，可能会混合其他来源的结果等。它有自己的一系列问题。

我的建议——选择您最感兴趣的一个，下载 Lucene 或 Xapian 或任何其他开源项目，找出执行上述任务之一的部分，然后尝试替换它。希望有更好的东西:-)。

一些可能有用的链接: "Agile web-crawler" ，来自爱沙尼亚的一篇论文(英文) Sphinx Search engine ，一个索引和搜索 API。专为大型数据库而设计，但模块化且开放。 "Information Retrieval ，Manning 等人的一本关于 IR 的教科书。很好地概述了索引的构建方式、出现的各种问题以及爬行的一些讨论等。免费在线版本(目前)!

关于search - 构建网络搜索引擎，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/112248/

25

4

0

文章推荐： vb.net - 在 vb.net 中生成随机字符串

文章推荐： java - spring-retry Retryble 注解与 retryTemplate

javascript - 构建搜索应用程序时什么最有效 : search:search or cts:search?
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
search - 自动包装 I-search？
在 Vim 中，我可以:set wrapscan，这样当我进行增量搜索时，无论第一个匹配项位于光标上方还是下方，光标都会跳转到第一个匹配项。在 Emacs 中，如果我通过 C-s 开始搜索，如果第一
search - Elastic Search 和 Google Search Appliance 页面排名之间的区别
Elasticsearch 中的页面排名是如何工作的。一旦我们创建了一个索引，就会有一个底层智能层创建一个元数据存储库并提供结果以根据相关性进行查询。我已经创建了几个索引，我想知道在提供查询后结果是如
search - Elastic Search 在多次运行相同查询时返回不一致的结果
我们在单个节点上使用 Elasticsearch 对数据进行了索引。我们在后台运行了一个线程，用于使用最近的更改更新索引。现在我们使用 Elasticsearch API 来运行搜索查询。 {
search - twitter search api没有OR结果
这突然停止工作，正在工作，但现在却没有: 如果我使用Twitter UI并转到: https://twitter.com/#!/search/%22social%20snap%22%20OR%20%
java - Hibernate-search:通过在 hibernate-search 中以编程方式注册字段，基类字段未在 elastic-search 中注册
我在基类中声明了某些字段，并且我想仅为某些子类(实体)注册这些字段。因此，我不想通过 @Field 注释基类中的这些字段，尽管只需以编程方式注册某些实体就足够了。但是在基本实体中声明的字段未注册/
full-text-search - 优势数据库 : Full Text Search not returning results that start with the search string
我的全文搜索索引有问题。我有一个字符字段大小为 30 的表。我在这个字段上创建了一个全文搜索索引，以便在这个不区分大小写的字段上进行快速搜索操作。现在，当我执行以下查询时:SELECT fieldna
search - SandcaSTLe 帮助构建器: Search Functionality
我对SandCaSTLe的输出感到非常满意，但我也想在HTML输出中包含一些搜索功能，这可能吗？最佳答案 SandCaSTLe帮助文件生成器的网站输出包含 index.aspx 和 index.ht
search - Apache Lucene与Google Search Appliance
有没有人遇到过Apache Lucene的功能？我听说它甚至可以与Google Search Appliance(GSA)相提并论。我正在寻找两者之间的明确比较，如果可能的话？在线上进行的比较非常模
search - “Find”和 “Search”之间的语义差异？
在构建应用程序时，“查找”与“搜索”之间有什么有意义的区别吗？您是否将它们视为同义词？我在询问应用程序UI和API设计的标签方面。最佳答案查找是搜索的完成。如果您可能无法成功找到某些东西，则将
search - 谷歌图片搜索: search similar images
我想编写一个移动应用程序，它可以拍照并在谷歌图像中搜索类似的图片，然后显示结果。但是，使用谷歌图像搜索我只能搜索文本字符串，而使用搜索 API 似乎无法搜索相似图片；此功能似乎只能通过网络界面使用。
search - "Search More..."在我的 Many2one 字段中
当我从 Many2one 列表框中选择一个项目时，我想要进行高级搜索。例如，此功能是针对“res.groups”对象实现的。我在/addons 中找不到此功能。更准确地说，我定义了我的对象 clas
search - Amazon Cloud Search - 按时间和日期获取地点
我正在使用 Amazon CloudSearch 存储大量地点。每个地方在一周中的每一天都有开放时间和关闭时间。我需要按当前时间检索地点。您如何建议对索引进行建模？我想通过创建 7 个文本索引来解决
search - 执行 "related searches"功能的方法
我见过一些网站，当您执行搜索时会列出相关搜索，即它们会建议您可能感兴趣的其他搜索查询。我想知道在中型网站中对此进行建模的最佳方法(没有足够的流量来依赖访问者统计数据来推断关系)。我最初的想法是存储每
search - Sitecore Search Api - 如何获取格式化的网址
如何从 Sitecore Lucene 搜索中获取格式化的 url？我创建了一个自定义索引，并在根目录下将其更新为/sitecore/content/websitename/home。检索到搜索结果
search - Vim 状态行 : Word search
我一直在努力寻找这个并且无法找到我想要的东西。在我的状态行上，我想要计算当前文件中出现的匹配数。下面的 vim 命令返回我想要的。我需要返回的号码显示在我的状态行中。 :%s/^I^I//n vim
search - "The specified CFC search could not be found"
我们有自己的服务器与应用程序一起工作。我们开始使用不同的提供商进行托管，现在我们遇到了上述错误。关于同页面，这有效: 但是这个不我们无法弄清楚为什么会这样。您
700. Search in a Binary Search Tree 二叉搜索树中的搜索
题目地址：https://leetcode.com/problems/search-in-a-binary-search-tree/description/ 题目描述 Given the root
search - 传单控件搜索 : open Popup for search result
我正在使用很棒的插件 Leaflet.Control.Search为了在我的 map 上搜索标记(来自 geoJson 标记组)——效果很好。我现在只有一个简单的问题:如何打开搜索结果标记的弹出窗口
search - TYPO3 后端 : search custom records
我开发了一个允许创建新记录的扩展。在列表模块中，在记录列表下，有搜索表单。例如，它适用于 fe 用户，但不适用于我的自定义记录。是否必须在我的 tca 中添加任何特殊配置才能使此表单与我的自定义

首页

博学

6Ren·AI

商城

search - 构建网络搜索引擎