gpt4 book ai didi

algorithm - 在大型文本语料库中查找常见单词序列的技术?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:52:05 24 4
gpt4 key购买 nike

是否有任何算法可以在大型文本语料库中高效地找到 n 个最常见的 k 词序列?

因此,例如,如果 n = 1k = 5,我的语料库是:

a b a b a c d e f a b a b a c c b c b a b c

输出将是 a b a b a

最佳答案

这是一个简单的算法。将单词序列拆分为 k 个单词的序列,每个单词逐行拆分。对于您的示例,我们有:

a b a b a
b a b a c
a b a c d
b a c d e
a c d e f
c d e f a
d e f a b
e f a b a
f a b a b
a b a b a
b a b a c
a b a c c
b a c c b
a c c b c
c c b c b
c b c b a
b c b a b
c b a b c
c b a b c

对它们进行排序:

a b a b a
a b a b a
a b a c c
a b a c d
a c c b c
a c d e f
b a b a c
b a b a c
b a c c b
b a c d e
b c b a b
c b a b c
c b a b c
c b c b a
c c b c b
c d e f a
d e f a b
e f a b a
f a b a b

现在很容易找到最常见的 k 序列。如果文件非常大,您可能需要对其进行拆分、排序,然后合并这些部分。

关于algorithm - 在大型文本语料库中查找常见单词序列的技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56466618/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com