gpt4 book ai didi

algorithm - 查找与单词查询匹配的热门文档

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:36:31 25 4
gpt4 key购买 nike

基本上在这个问题中,我们有 1000000 个文档:

文件有:
-正文(包含很多字)
-日期
-文件编号
..等等

我们有一个包含一些单词(最多 1000 个)的查询:

所以我们现在的问题是我们首先找到 Documents 和 Query 之间的交集,然后找到匹配单词最多的前 K 个顶级文档。

例如:

D1 - w1, w2, w3, w4, ... wn
D2 - w2、w4、w5、x2
D3 - a1, a2, w1, x1, x2

Q(w1,a1,w4,w5,x1,w5,w6)

所以现在做查询和文档的交集

D1 - w1,w4,w5,w6 - 4 场比赛
D2 - w4,w5 - 2场比赛
D3 - a1,x1,w1 - 3 匹配

所以前 2 个文档是 D1 和 D3

我试图将文字映射到二维矩阵中的文档。

       D1 D2 D3  w1     1     1  w2     1  1  w3     1         .  .  .  a1           1    a2           1  x1           1  x2        1  1  

我试图从这个矩阵中找出数字,但面试官不高兴。

请大家帮忙!!

最佳答案

如果您必须自己编写程序,您可能会用这 1000 个单词构建一个哈希表,然后浏览文档并检查所有单词是否匹配。保留 k 个最佳匹配的列表,并在每个文档后更新它。

在现实生活中,我会把文档存入 PostgreSQL 数据库,在文本上创建全文搜索索引,然后运行包含搜索词的 SQL 查询。为什么要重新发明轮子?

关于algorithm - 查找与单词查询匹配的热门文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56939710/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com