gpt4 book ai didi

document - 文档与多个关键字的相关性

转载 作者:行者123 更新时间:2023-12-02 06:53:13 26 4
gpt4 key购买 nike

假设D是一个文本文档,并且

K = < k1, ..., kN >

代表文档中包含的一组术语。例如:

D = "What a wonderful day, isn't it?"
K = <"wonderful","day">

我的目标是查看文档 D 是否将 K 中的所有单词作为一个整体进行讨论。例如:

D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">

DK强相关的情况,而:

D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">

DK 无关的情况,因为“Ebola”和“Africa”在文档的不同点中以单独的句子提到,并且不相关。

如何综合 DK 的“相关性”概念?是否有一些最先进的技术可以利用?

谢谢。

最佳答案

一个vector space model可能就是您正在寻找的。

您可以将 D 转换为与 K 相同的格式,即单词列表,例如<“什么”、“一个”、“精彩”、“一天”、“不是”、“它”>。这是通过称为分词器的东西来完成的。

在此之后,您可以删除没有意义的无用单词,例如“and”、“the”、“it”等。要删除的单词称为 stop words ,存储在停止列表中。

您还应该将所有单词转换为小写(甚至大写),以便“What”和“what”不会被归类为不同的单词。

此后,文档可以表示为单词及其频率列表(看一下 inverted index )。

计算cosine similarity文档 (D) 和查询 (K) 之间。

关于document - 文档与多个关键字的相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29013941/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com