- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
你们知道我在哪里可以找到搜索引擎解析器设计图吗?
我需要了解它如何处理用户输入。正在使用哪些函数/算法?状况。等等。
它不一定是 Google 的。
更新了搜索引擎解析器的问题
最佳答案
您首先需要更好地了解搜索引擎。通常有
1) 网络爬虫,它可以获取您想要添加到搜索数据空间的文档。这通常完全超出您所说的“搜索引擎”的范围。
2) 一个解析器,它获取文档并将其拆分为可索引的文本片段。如果通常使用不同的文件格式、人类语言,并且正在对某些固定记录和流文本中的文本进行预处理。语言算法(如词干分析器 - 搜索 Porter Stemmer 以获得简单算法)也适用于此。
3) 一个索引器,它可能像每个文档的单词倒排列表一样简单,或者如果您想像谷歌一样聪明,则可以像您想要的那样复杂。建立索引是一个成功的搜索引擎真正神奇的部分。通常有多种排名算法组合在一起。
4) 具有可选查询语言的前端。这就是谷歌真正糟糕的地方,但正如你在谷歌的成功中看到的那样,它对 98% 的人来说可能并不那么重要。但我真的很想念这个。
我认为您是在要求 (3) 索引器。基本上,您可以在经典信息检索文献中找到 2 种不同类型的算法。矢量空间模型和 bool 搜索。后者很简单,只需检查搜索词是否在文档内并返回一个 bool 值。每个搜索词都可以被赋予一个相关概率。对于不同的搜索词,您可以使用贝叶斯概率来总结相关性并添加返回排名最高的文档。向量模型将文档视为其所有单词的向量,您可以在文档之间构建标量向量乘积来判断它们是否靠近 - 这是一个复杂得多的理论。 IR(信息检索)之父是 Gerald Salton,你会在他的名字下找到很多文献。
这是直到 1999 年的 IR 艺术状态(我在 1998 年写了关于 usenet 新闻搜索引擎的毕业论文)。然后谷歌来了,所有的理论都被扔进了学术愚蠢和实践无关的垃圾桶。
谷歌并非建立在主流的 IR 理论之上。阅读 Srirangan 为您提供的链接。它只是一个建立在许多不同来源上的临时相关功能。除了白皮书营销 blablabla 之外,您在这方面找不到任何东西。该算法是搜索引擎公司的商业 secret 和资本。
对于简单的搜索引擎,请查看 lucence 库或 dtsearch,这是我一直选择的可嵌入搜索引擎库。
在开源世界中,关于 IR 技术的示例代码和可用信息并不多。他们中的大多数像 lucense 只是实现了最原始的操作。您必须购买书籍并前往大学图书馆才能访问研究文献。
作为文学作品,我建议从这本书开始 link text
alt text http://ecx.images-amazon.com/images/I/41HKJYHTQDL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg
关于search-engine - 搜索引擎解析器流程图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2032421/
Google Cloud Compute 中的 Google Compute Engine、App Engine 和 Container Engine 之间的实际区别是什么?什么时候使用什么? 有什么
我有一个在 Google App Engine 中运行的应用程序,它访问在 Google Compute Engine 中的机器上运行的服务。 Google App Engine 应用程序是该服务唯一
我们正在谷歌云中构建一个应用程序。我们使用 App Engine 作为前端,使用 Compute Engine 作为后端。在这些 Compute Engine 实例上,我正在运行一个接受特定“命令”消
我有一个现有的 GAE 应用程序(我们称之为应用程序 A)正在运行的情况,但由于非技术原因无法修改。当用户迁移到新的客户端版本时,我们需要将他们的数据从应用程序 A 迁移到新的 GAE 应用程序(我称
我正在尝试发现 App Engine 上的其他已部署服务。类似于 this文章建议。 我的代码是这样的: import ( "fmt" "net/http" "google.g
我想在我的网站上为“图像处理”事件设置服务器。如果我在 GCE 中使用“n1-standard-1”实例,GAE 中的可比功率是多少?是因为我算错了,还是同一个功率两者价格相差很大? 最佳答案 按小时
我在 Googl Compute Engine 和 Google App Engine 标准环境中的应用程序中创建了一个 VM 实例。我打算在 App Engine 中使用我的应用程序,在 Compu
我像往常一样使用 appcfg.py 更新我的应用程序,但收到一条错误消息。我试过 appcfg.py 回滚,两次尝试之间等了十分钟,但我仍然收到相同的错误消息。我该怎么办? 无法对 apps/dev
我想在 Google Compute Engine 上放置一个 Redis 服务器,并通过 AppEngine 的套接字支持与其对话。唯一的问题是似乎没有特定的防火墙规则说“此 AppEngine 应
我想知道 App Engine 和 Compute Engine 之间有什么区别。任何人都可以向我解释其中的区别吗? 最佳答案 App Engine 是一种平台即服务。这意味着您只需部署代码,平台会为
我正在编写一个在 App Engine 的 Go 运行时上运行的 Go 应用程序。 我注意到几乎所有使用 App Engine 服务(例如 Datastore、Mail 甚至 Capabilities
是否有人有在 Grid Engine/Sun Grid Engine/Son of Grid Engine 上运行 Docker 的经验,并且能够 monitor the resource used
我读了很多论坛,因为 grails app-engine 插件多年来没有更新,所以不可能将 grails 应用程序部署到谷歌应用程序引擎。当我准备放弃时,我发现使用 intellij 部署项目是可能的
当前设置, 运行 Windows Server 2012 (GCE Server 2012) 的谷歌计算引擎 运行 Debian Wheezy(GCE 服务器 Wheezy)的 Google 计算引擎
特定于基于 Docker 的部署,这两者之间有什么区别?由于 Google App Engine Flexible 现在也支持基于 Dockerfile 的部署,并且它也是完全托管的服务,因此它似乎比
我相信 Google Kubernetes Engine (GKE) 在 Google Compute Engine (GCE) 上运行。那么,在服务器管理方面使用 Google Kubernetes
TLDR;关于这个问题有任何更新吗? Google App Engine communicate with Compute Engine over internal network -- 是否可以在同
我正在尝试使用 Go SDK 为 App Engine 编写应用程序,但它似乎与单元测试有一种有趣的关系。人有written libraries左右this original, outdated一组工
在 App Engine 中,我想对在同一个 Google 云项目中创建的 Compute Engine 实例上运行的网络服务器进行 http fetch 调用,我想知道是否可以在不启用的情况下对实例
在编写 Go App Engine 标准应用程序时,过去的情况是您必须使用 App Engine SDK访问数据存储。然而,最近(从 Go 1.11 开始?),如果你只使用 Cloud Datasto
我是一名优秀的程序员,十分优秀!