gpt4 book ai didi

search-engine - 搜索引擎解析器流程图

转载 作者:行者123 更新时间:2023-12-04 14:36:39 24 4
gpt4 key购买 nike

你们知道我在哪里可以找到搜索引擎解析器设计图吗?
我需要了解它如何处理用户输入。正在使用哪些函数/算法?状况。等等。

它不一定是 Google 的。

更新了搜索引擎解析器的问题

最佳答案

您首先需要更好地了解搜索引擎。通常有

1) 网络爬虫,它可以获取您想要添加到搜索数据空间的文档。这通常完全超出您所说的“搜索引擎”的范围。

2) 一个解析器,它获取文档并将其拆分为可索引的文本片段。如果通常使用不同的文件格式、人类语言,并且正在对某些固定记录和流文本中的文本进行预处理。语言算法(如词干分析器 - 搜索 Porter Stemmer 以获得简单算法)也适用于此。

3) 一个索引器,它可能像每个文档的单词倒排列表一样简单,或者如果您想像谷歌一样聪明,则可以像您想要的那样复杂。建立索引是一个成功的搜索引擎真正神奇的部分。通常有多种排名算法组合在一起。

4) 具有可选查询语言的前端。这就是谷歌真正糟糕的地方,但正如你在谷歌的成功中看到的那样,它对 98% 的人来说可能并不那么重要。但我真的很想念这个。

我认为您是在要求 (3) 索引器。基本上,您可以在经典信息检索文献中找到 2 种不同类型的算法。矢量空间模型和 bool 搜索。后者很简单,只需检查搜索词是否在文档内并返回一个 bool 值。每个搜索词都可以被赋予一个相关概率。对于不同的搜索词,您可以使用贝叶斯概率来总结相关性并添加返回排名最高的文档。向量模型将文档视为其所有单词的向量,您可以在文档之间构建标量向量乘积来判断它们是否靠近 - 这是一个复杂得多的理论。 IR(信息检索)之父是 Gerald Salton,你会在他的名字下找到很多文献。

这是直到 1999 年的 IR 艺术状态(我在 1998 年写了关于 usenet 新闻搜索引擎的毕业论文)。然后谷歌来了,所有的理论都被扔进了学术愚蠢和实践无关的垃圾桶。

谷歌并非建立在主流的 IR 理论之上。阅读 Srirangan 为您提供的链接。它只是一个建立在许多不同来源上的临时相关功能。除了白皮书营销 blablabla 之外,您在这方面找不到任何东西。该算法是搜索引擎公司的商业 secret 和资本。

对于简单的搜索引擎,请查看 lucence 库或 dtsearch,这是我一直选择的可嵌入搜索引擎库。

在开源世界中,关于 IR 技术的示例代码和可用信息并不多。他们中的大多数像 lucense 只是实现了最原始的操作。您必须购买书籍并前往大学图书馆才能访问研究文献。

作为文学作品,我建议从这本书开始 link text
alt text http://ecx.images-amazon.com/images/I/41HKJYHTQDL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

关于search-engine - 搜索引擎解析器流程图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2032421/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com