gpt4 book ai didi

php - 搜索引擎如何找到相关内容?

转载 作者:行者123 更新时间:2023-12-01 19:06:08 25 4
gpt4 key购买 nike

谷歌在解析网络时如何找到相关内容?

例如,假设 Google 使用 PHP 原生 DOM 库来解析内容。他们会用什么方法在网页上找到最相关的内容?

我的想法是它会搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中计算出每个段落的相关性百分比。

假设我们有这个 URL:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html

现在从该 URL 中,我将计算出 HTML 文件名将具有很高的相关性,因此我将看到该字符串与页面中的所有段落相比有多接近!

一个很好的例子就是 Facebook 分享,当你分享一个页面时。 Facebook 迅速对链接进行机器人处理并带回图像、内容等。

我在想某种计算方法是最好的,根据周围的元素和元数据计算出相关性的百分比。

是否有任何关于内容解析最佳实​​践的书籍/信息,包括如何从站点获取最佳内容、可能讨论的任何算法或任何深入的回复?

我想到的一些想法是:
  • 查找所有段落并按纯文本长度排序
  • 以某种方式找到 div 的宽度和高度容器并按 (W+H) 订购 - @Benoit
  • 检查元关键字、标题、描述并检查段落内的相关性
  • 查找所有图像标签并按最大和远离主段落的节点长度排序
  • 检查对象数据,例如视频并从最大的段落/内容 div 中计算节点
  • 找出与前一页解析的相似之处


  • 我需要这些信息的原因:

    我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的页面,但我希望网站管理员提交一个链接,然后我去抓取该页面以查找以下信息。
  • 图片(如果适用)
  • 来自最佳文本片段的 < 255 段
  • 将用于我们的搜索引擎的关键字,(堆栈溢出样式)
  • 元数据关键字、描述、所有图像、更改日志(用于审核和管理目的)

  • 希望你们能理解,这不是针对搜索引擎的,而是搜索引擎处理内容发现的方式与我需要的内容相同。

    我不是在要求商业 secret ,我是在问您对此的个人方法是什么。

    最佳答案

    这是一个非常笼统的问题,但却是一个非常好的话题!绝对赞成:)
    然而,我对到目前为止提供的答案并不满意,所以我决定就此写一个相当长的答案。

    我不满意的原因是答案基本上都是正确的(我特别喜欢kovshenin(+1)的答案,这与图论非常相关......),但所有这些要么对某些因素过于具体,要么过于具体一般的。

    这就像问如何烤蛋糕,你会得到以下答案:

  • 你做了一个蛋糕,然后把它放进 toastr 。
  • 你肯定需要糖!
  • 什么是蛋糕?
  • 蛋糕是一个谎言!

  • 你不会满意,因为你不知道什么是好蛋糕。
    当然有很多或recipies。

    当然,谷歌是最重要的参与者,但是,根据用例的不同,搜索引擎可能包含非常不同的因素或不同的权重。

    例如,用于发现新的独立音乐艺术家的搜索引擎可能会在
    包含大量外部链接的艺术家网站。

    主流搜索引擎可能会做完全相反的事情来为您提供“相关结果”。

    有(正如已经说过的)谷歌发布的 200 多个因素。
    所以网站管理员知道如何优化他们的网站。
    很可能还有更多公众不知道的(在 Google 的案例中)。

    但在非常粗俗和抽象的术语中 SEO优化您通常可以将重要的分为两组:
  • 答案与问题的匹配程度如何?或者:
    页面内容与搜索词的匹配程度如何?
  • 答案有多受欢迎/好?或者:
    什么是pagerank?

  • 在这两种情况下,重要的是我不是在谈论整个网站或域,而是在谈论具有唯一 URL 的单个页面。

    同样重要的是,pagerank 并不代表所有因素,仅代表 Google 归类为受欢迎程度的因素。我所说的好是指与受欢迎程度无关的其他因素。

    在谷歌的情况下,官方声明是他们希望向用户提供相关结果。
    这意味着所有算法都将针对用户想要的进行优化。

    所以在这个长篇介绍之后(很高兴你还在我身边......)我会给你一个我认为非常重要的因素列表(目前):

    类别 1(答案与问题的匹配程度如何?

    您会注意到很多都归结为文档的结构!
  • 该页面主要处理确切的问题。

  • 含义:疑问词出现在页面标题文本或标题段落段落中。
    这些关键字的位置也是如此。页面越早越好。
    也经常重复(如果不是太多的话,这就是关键字填充的名称)。
  • 整个网站处理话题(关键字出现在域/子域中)
  • 词是这个页面的一个重要主题(内部链接 anchor 文本跳转到关键字的位置或 anchor 文本/链接文本包含关键字)。
  • 如果外部链接使用链接文本中的关键字链接到此页面,同样如此

  • 类别 2(页面的重要性/受欢迎程度如何?)

    您会注意到并非所有因素都指向这个确切的目标。
    包括一些(特别是谷歌)只是为了提升页面,
    那……嗯……那是应得的/应得的。
  • 内容为王!

  • 在网络的其余部分无法找到或只有很少的独特内容的存在提供了插入力。
    这主要是通过网站上通常很少使用的单词(重要单词)的无序组合来衡量的。但也有更复杂的方法。
  • 最近 - 越新越好
  • 历史变化(页面过去多久更新一次。变化是好的。)
  • 外部链接流行度(有多少链接?)

  • 如果一个页面链接另一个页面,如果页面本身具有较高的 pagerank,则该链接的值(value)更高。
  • 外链多样性

  • 基本上来自不同根域的链接,但其他因素也起作用。
    诸如地理链接站点的网络服务器的分离程度等因素(根据其 IP 地址)。
  • 信任等级

  • 例如,如果大型的、受信任的、已建立的站点与您的内容相关联,您将获得信任等级。
    这就是来自 The New York Times 的链接的原因比一些奇怪的新网站更有值(value),即使它的 PageRank 更高!
  • 域信任

  • 如果您的域受到信任,您的整个网站都会提升您的内容。
    不同的因素在这里很重要。当然,从受信任的关系到您的域的链接,但如果您与重要网站位于同一个数据中心,它甚至会很好。
  • 专题链接在。

  • 如果可以解析为主题的网站链接到您并且查询也可以解析为该主题,那就太好了。
  • 随着时间的推移分发链接。

  • 如果您在短时间内获得了大量链接,那么这对您此时和之后不久的将来都有好处。但后来就没那么好了。
    如果您缓慢而稳定地获得链接,那么它对“永恒”的内容有好处。
  • 来自受限制域的链接

  • 来自 .gov 的链接域名很值钱。
  • 用户点击行为

  • 你的搜索结果的点击率是多少?
  • 网站停留时间

  • 谷歌分析跟踪等。如果用户在打开你的结果后点击返回或点击另一个结果,它也会被跟踪。
  • 收集的用户数据

  • 投票、评级等,Gmail 中的引用等。

    现在介绍第三个类别,上面的一两点就属于这个类别了,但是我没想到…… 类别是:

    ** 一般而言,您的网站有多重要/好 **

    根据您网站的质量,您的所有页面都会排名靠前

    因素包括:
  • 良好的站点架构(易于导航、结构化。站点地图等...)
  • 如何建立(长期存在的域更有值(value))。
  • 托管商信息(您附近托管了哪些其他网站?
  • 您确切姓名的搜索频率。

  • 最后但并非最不重要的一点,我想说,语义技术可以丰富这些因素中的许多因素,并且可以引入新的因素。

    例如,有人可能会搜索泰坦尼克号,而您有一个关于冰山的网站……可以将其设置为可以反射(reflect)的相关性。

    新引入的语义标识符。例如 OWL标签在 future 可能会产生巨大的影响。

    例如,关于电影泰坦尼克号的博客可以在此页面上放置一个标志,表明它与维基百科关于同一部电影的文章内容相同。

    这种链接目前正在大力开发和建立,没有人知道它将如何使用。

    也许重复的内容被过滤了,只显示最重要的相同内容?或者反过来?您会看到很多与您的查询相匹配的页面。即使它们不包含您的关键字?

    Google 甚至会根据您搜索查询的主题应用不同相关性的因素!

    关于php - 搜索引擎如何找到相关内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3967076/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com