gpt4 book ai didi

c - 如何使用哈希表在句子列表中找到最常见的短语

转载 作者:太空宇宙 更新时间:2023-11-03 23:53:59 25 4
gpt4 key购买 nike

所有句子都是小写英文,没有标点符号,一个短语定义为3个连续的单词,所以如果一句话是:我是杰西卡·亨特

所以短语将是“i am jessica”和“am jessica hunt”

如果一个短语出现在文件的所有句子中,则该短语是常见的

请帮我用一个合适的散列函数来解决这个问题

最佳答案

任何事情都会发生。我将从 (3*a + 5*b + 7*c) 开始,{a,b,c} 是三个连续单词的单词编号(或哈希值)。 (当然都是无符号和模字长)

  • 标记为单词,忽略空格和标点符号
  • 将生成的单词放入哈希表(dict)
  • 遍历文件,维护用于计算三 token 哈希的滑动窗口
  • 并将它们放入/更新到第二个哈希表中。
  • 为了解决冲突,第二个哈希表需要(指针,索引)访问原始三个词。

关于c - 如何使用哈希表在句子列表中找到最常见的短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12875291/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com