gpt4 book ai didi

algorithm - 从 n-gram 集中创建所有可能的序列

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:33:37 28 4
gpt4 key购买 nike

我知道如何将句子生成为 n-gram。例如:unigram 和 bigram(使用数字序列)

1 2 3 4 5 (original senctence)
=>
1,2,3,4,5 (unigram)
12,23,34,45 (bigram)

如何组合 unigram 和 bigram(或更大的 n-gram)使所有可能的句子具有相同的原始长度。

1,2,3,4,5 (unigram)
12,23,34,45 (bigram)
=>
1 2 3 4 5
1 2 3 45
1 2 34 5
1 23 4 5
1 23 45
12 3 4 5
12 3 45
12 34 5

我想找到解决这个问题的算法。谢谢!

最佳答案

提示如下:

  • 假设您有 5 个数字 [1 2 3 4 5]
  • 有4处可以插入空格[1-2, 2-3, 3-4, 4-5]
  • 4位二进制数表示组合(0-无空格,1-空格)
  • 例如:代码 0110 匹配 [1 (0) 2 (1) 3 (1) 4 (0) 5] == [12 3 45]
  • 遍历所有 n-1 个二进制代码。

关于algorithm - 从 n-gram 集中创建所有可能的序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22765968/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com