database-design - FaceBook搜索:它的技术要求和创新功能有哪些值得关注？-6ren

database-design - FaceBook搜索:它的技术要求和创新功能有哪些值得关注？

转载作者：行者123 更新时间：2023-12-04 07:13:03

Facebook已经在搜索中融入了一些独特的功能-甚至可能已经获得了某些专利？我所说的功能是由三个不同的要求驱动的：

他们的数据库巨大，而且他们不能随便将它们联接到所需数据上，正如您所希望的那样，通常是在一个拥有少于一百万条记录的单宿主业务应用程序中。
用户的期望值受其他搜索体验（即Google）的影响，因此，通过在要搜索的人的姓名后附加关键字（例如“佛罗里达州奥兰多”或“扶轮社”）（或某些人），可以进行长尾搜索查询其他识别值，例如雇主名称）。
基于我们从应用程序中查找的窗口，数据体系结构似乎很浅（当然，它并不浅）。我的意思是，除了用户配置文件中所谓的“基本信息”（例如性别和当前城市）之外，使配置文件唯一的大部分内容都不会严格分配给逻辑列。

因此，与数据集的大小相关的需求中存在复杂性，但需要向用户交付相关结果，到一个不精通搜索，但是由TheThe提供了他们期望和培训的用户社区谷歌。

考虑到所有这些（我的问题的细化）：

a。）我们应该注意并部署在我们自己的搜索应用程序/引擎中的FaceBook需要哪些搜索功能？必要时，我的意思是受数据集的庞大规模驱动，或者受用户的期望驱动，并且网站需要有机地增长和增加其数据之间的关系，即用户。

b。）哪些搜索功能具有创新性，值得数据和/或搜索架构师关注？

有些是显而易见的，例如对名字使用同义词-将“帐单”查询与“威廉”记录模糊匹配。您可以在Solr中使用同义词列表进行此操作。我将其称为必要的基本功能，当然不是创新的。

其他创新的东西值得我们关注。我可以引起注意的第一个创新示例是，它们的搜索相关性是针对每个用户定制的。如果我输入“ John Smith”，则得到的结果集将不同于其他搜索者（理论上，对我，网络中的人，朋友的朋友等的匹配更好）。在您说这不是创新之前，因为您可以在Google中仅输入“ Pizza”，然后他们会将您的语言环境附加到查询中，从而为您提供相关的结果，请继续。我希望，对这个问题的答案和讨论确实可以构成一些技术要求，并提供想法作为搜索功能。

例如...

您会猜测他们运行常规的批处理过程来对数据进行非规范化吗？（即批处理作业，以建立就地第一分离度，第二分离度等的链接表）
通过这样的批处理或非规范化，它是否会限制点击数？仅返回逻辑上最接近的“约翰·史密斯”匹配项即可证明这一点。但是，对非通用名称（例如我自己的名字和姓氏）的搜索似乎不受结果限制的影响，并且搜索将遍及全球，完全不在“几度”分离的范围内。
他们是否按年龄增加了相关性评分，从而使与搜索者处于同一年龄段的比赛具有更高的相关性？（评论：看来他们应该这样做，这至少应该是代际沟通/会议的一个小小的障碍，我不知道这是委婉的）

从技术上讲，在后端，最好是在数据库级别执行非规范化过程，然后为“文档”建立索引吗？（说明：对于那些联合进行企业搜索的人，“文档”的概念类似于数据库记录，是MOL ... MOL）

或者，是否没有数据库非规范化。取而代之的是，编写搜索索引的过程包括将相关信息和“处于网络中”或相距几度的人员写入每个“文档”中。

确实，有必要对此类信息进行预处理。我自己在实践中没有做过这样精确的事情，在我看来，在数据库级别进行批量非规范化是有利的，原因是搜索服务器擅长超快速地查找信息，而数据库服务器则擅长于获取信息。匹配数据（假设数据扩展到搜索索引中没有的相关列）。

因此，扩展依赖于用户搜索者的搜索相关性的概念时，请注意，它也是用户最近浏览活动的衍生形式。例如，搜索“约翰·史密斯奥兰多”可能永远不会产生“正确的”约翰·史密斯，但是在访问了正确的约翰·史密斯的FaceBook页面（假设您通过电子邮件获得了他的URL）之后，即使没有将约翰·史密斯添加为朋友，下次，对John Smith的后续搜索实际上将在下一次返回该结果。 [我不知道它会过期多长时间，还是完全过期？]

我在这里以Facebook为例，因为它们很大。它们的大小决定了一种经过深思熟虑的体系结构，例如保持其正常形式的结构，以及不能因为不能重复JOIN 1亿个记录表（不能从另一个“叉子”重新加入同一个人表）而导致的结构链接表或derived table可以产生“朋友的朋友”效果）。

相关性调整的实践实际上几乎是一门艺术。数据集，业务规则和用户期望非常独特，以致几乎无法创建多功能评分模板甚至最佳实践。

话虽这么说，通过寻找能够很好地进行搜索的大型网站，有一种技术可以模仿，不是吗？

FaceBook有哪些技术？考虑到它们的大小，他们不能仅通过ORM来获取用户所需的内容（不是对ORM拥护者的猛烈抨击）-这就需要精心计划的规范化，SQL级索引，DE规范化和搜索服务器索引。

谁能建议那里采用哪些技术？为此，任何具有相似搜索（和大数据集）的大型站点也将提供良好的主题建议。

最佳答案

对于数据库，Facebook由于其速度和可靠性而使用MySQL。 MySQL主要用作键值存储，因为数据在大量逻辑实例之间随机分布。这些逻辑实例分布在物理节点上，并且负载均衡是在物理节点级别完成的。
就定制而言，Facebook开发了一种定制分区方案，其中将全局ID分配给所有数据。他们还具有基于每个用户的频繁程度和最新数据的自定义存档方案。大多数数据是随机分布的。

对于收件箱之类的某些部件，它使用“最终一致”的NoSQL数据库，并且在查询它们的群集时，会得到“当时的最佳答案”，不一定是正确的。

从问题的某些部分来看，您似乎正在尝试采取适用于社交媒体的做法并将其更广泛地应用。最终，一致性无法在会计或交易或医学或研究中发挥作用。如果这是房妮姨妈的最新照片，那没人会在乎FB页面是否始终显示最新的猫。您愿意为了这种平庸而牺牲这种准确性。

因为FB做到了，所以将每个第3个正规表单业务应用程序转换成关键值对，这不是我愿意登上的火车。

关于database-design - FaceBook搜索:它的技术要求和创新功能有哪些值得关注？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3784367/

文章推荐： version-control - 什么是 tortoisehg gui 相当于做 "hg push -r"

文章推荐： sql - 免费的 sql 代码编辑器？

css - (OOP 技术)继承与接口(interface) --- 相同的概念？---(CSS 技术)样式标签与样式类？
原谅那个疯狂的标题... 我试图理解面向对象编程中继承与接口(interface)的概念。所以我试图将它与我已经知道的东西联系起来，这就是 CSS。在 CSS 中，您可以选择在允许元素“继承”样式的
包装无符号二进制数据的 SWIG 技术
我有一个 C 函数，它返回一个表示二进制数据的 unsigned char*。我在文档中注意到 SWIG 有一个很好的类型映射来处理二进制数据作为 C 函数的输入，但是当 C 函数返回二进制数据及其无
java - 序列处理或解析的首选语言/技术
过去遇到过几次类似的问题，想知道用什么语言(方法)来解决类似的问题(我是J2EE/java开发人员): 问题:在一组可能的单词中，根据给定的规则(假设单词可以是 A 和 X 的组合，并且始终以 X 开
支持事务处理的 Java 技术
这个问题不太可能帮助任何 future 的访客；它只与一个小地理区域、一个特定时刻或一个非常狭窄的情况相关，而这些情况通常不适用于互联网的全局受众。如需帮助使这个问题更广泛地适用，visit the
.net - 内部框架与新的C#技术
如果我们已经开发了自己的ORM框架并且该框架在过去的几年中运行良好，那么为什么我们要为即将到来的软件项目学习和使用全新的.net技术，例如LINQ或Entity Framework或NHibernat
Delphi - 用于跟踪传播的访问违规的工具/技术
即使听起来很奇怪，我相信每个人在处理具有大量自定义组件的大型应用程序时都遇到过此类问题。某个地方生成了 AV，但应用程序仍在继续执行，稍后会出现错误。我不是在谈论多线程应用程序。只是关于通用的单线程应
.NET "Push"技术？
我正在设计一个新项目，我正在尝试找出将数据/事件从服务器应用程序推送到客户端应用程序(即 WPF 应用程序)的方法。我知道的两个是: 发布/订阅(即 NServiceBus) Full Duplex
网络托管和 websocket 技术
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 5年前关闭。 Improve thi
用于确定计算机是否使用电池供电的 C# 技术？
这个问题在这里已经有了答案: C# .NET: How to check if we're running on battery? (6 个答案) 关闭 9 年前。我发现许多 API 可以帮助确定
javascript - 制定基本日期(技术)
没有 JQUERY!我有一个下拉列表，用户可以在其中选择日期、月份和年份。我创建以下代码并使用 setFullYear 将这些值传递到变量中。有时我还会向这个变量添加天数，这就是变量 ev_num 的
c# - GetDeviceCaps 技术
我有一个控件，我想在表单和打印时以不同的方式绘制它。这是我做的方式: private void printDocument1_PrintPage(object sender, System.Drawi
opencv - 用于从扫描文档中提取字段的图像配准算法/技术？
我正在尝试确定从扫描文档中提取手写数据的最佳方法。手写数据位于特定的方框区域。我生成了文档的数字版本，因此我知道方框区域的坐标，并且如果需要还可以生成文档的其他变体(即被屏蔽以使字段更容易提取的版本
algorithm - 模式识别算法/技术
背景对于基于音乐的问题，我深表歉意，但细节并没有那么重要。我正在按顺序浏览一个 midi 文件，我正在寻找一种有效的方法来查找数据中的模式以找到称为连音符的东西。见下图: 连音符上方有数字(3 或
对象生命周期结束的 Java 技术
经验丰富的 Java 新手，寻求您的智慧: 如果无法确保在对象超出范围时执行某些特定的 block 代码，那么还有哪些其他方法可以提供相同的功能？(看起来 finalize 显然不是那个意思) 一个典
algorithm - 画笔冲压算法/技术
我正在玩一个小的油漆应用程序。我想创建不同的画笔提示(不仅仅是简单的线条)。基本思想是沿着鼠标移动重复(冲压)画笔 Nib 。因为鼠标移动不会为鼠标移动的每个像素分派(dispatch)所需的事件。我
java - 从对象的属性中找到重叠值的好算法/技术？
我正在制作时间表应用程序。重要的类是: Period id: int clazz: Clazz SubjectTeacher subject: String teac
java - 什么是减少Java冗长的好模式/技术
关闭。这个问题需要更多 focused .它目前不接受答案。想要改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this q
video - 同步发送小视频的最佳视频格式/编解码器/技术
我有一个奇怪的任务要解决。我们有一个小型视频窗口(如 300x200 像素，256 色调色板)和 44kHz 2ch 声音在服务器上播放。我们需要将此流视频发送给一些客户端(1,2.. 最多 10 个
scala - 为什么类型级计算需要 Aux 技术？
我很确定我在这里遗漏了一些东西，因为我对 Shapeless 还很陌生并且我正在学习，但是 Aux 技术实际上什么时候开始需要 ?我看到它是用来暴露一个 type通过将其提升为另一个“同伴”的签名来声
.net - 为什么微软仍然坚持使用 COM 技术
微软有什么理由仍然坚持使用 COM 技术(Office 组件仍然是 COM)……当所有用 COM 完成的事情都可以用 .Net 以更好、更有效的方式完成时最佳答案因为它需要一个长完全重写Offi

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

database-design - FaceBook搜索:它的技术要求和创新功能有哪些值得关注？