gpt4 book ai didi

indexing - 谷歌中的前向索引实现

转载 作者:行者123 更新时间:2023-12-05 08:00:17 24 4
gpt4 key购买 nike

我正在尝试在空闲时间开发一个仿照 google 的搜索引擎。

我使用的是此处列出的原始谷歌研究论文:http://infolab.stanford.edu/~backrub/google.html

但是我在这里遇到了一些问题。确切地说,我在开发正向索引时遇到了问题。

论文中说:

If a document contains words that fall into a particular barrel, the docID is recorded into the barrel, followed by a list of wordID's with hitlists which correspond to those words.

现在这个语句有两个问题。首先,谁决定将庞大词典中的哪些词放入 Forward Barrels?他们都去吧。其次是对应这个词的意思。它是指实际出现在文档中前一个词之后的词还是其他词?

我真的是搜索引擎的新手,非常感谢任何帮助我的信息检索专家。如果版主认为此问题属于其他 Stack Exchange 站点,请这样做。

最佳答案

第一个问题:每个单词的字符串值都映射为一个整数(通过哈希函数)。这是因为整数比字符串更容易处理。然后,您可以定义这些整数值的范围(桶或容器或任何您可能想调用它们的东西),例如

  • term ids 0 to 1000 => Bin-1
  • 术语 ID 1001 到 2000 => Bin-2等等。

第二个问题:通常不使用上下文信息。单词只是文档中出现的术语,例如术语“the”、“quick”、“brown”等。

既然您说您是 IR 的新手,那么开始阅读 IR 的介绍性书籍是一个很好的方法,例如Manning 和 Schutze 的书。

关于indexing - 谷歌中的前向索引实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18422590/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com