gpt4 book ai didi

twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法

转载 作者:行者123 更新时间:2023-12-04 05:59:00 28 4
gpt4 key购买 nike

想要一些关于构建一个工具的想法,该工具可以扫描文本句子(用英语编写)并基于文本中出现最多的单词或短语建立关键字排名。

这与推特趋势非常相似,推特检测并报告推文中的前 10 个词。

我已经确定了算法中的高级步骤如下

  • 扫描文本并删除所有常见的、常用的词(例如,“the”、“is”、“are”、“what”、“at”等)
  • 将剩余的单词添加到哈希图中。如果单词已经在 map 中,则增加其计数。
  • 要获得前 10 个词,请遍历哈希图并找出前 10 个计数。

  • 第 2 步和第 3 步很简单,但我不知道在第 1 步中如何检测文本中的重要词并将它们与常用词(介词、连词等)分开

    另外,如果我想跟踪短语,可以采用什么方法?
    例如,如果我有一条文字说“这个蜂蜜很好”
    我可能想跟踪“honey”和“good”,但我也可能想跟踪短语“very good”或“honey is very good”

    任何建议将不胜感激。

    提前致谢

    最佳答案

    实际上,您的第 1 步与第 3 步非常相似,因为您可能希望首先构建英语中最常用单词的绝对数据库。这样的列表在互联网上很容易找到(维基百科甚至有一篇文章引用了 100 most common words in the English language 。)您可以将这些词存储在哈希图中,并且在扫描您的文本内容时只需忽略常见的标记。

    如果您不信任 Wikipedia 和现有的常用词列表,您可以构建自己的数据库。为此,只需扫描数千条推文(越多越好)并制作您自己的频率图。

    您正面临类似 n-gram 的问题。

    不要重新发明轮子。您似乎想要做的已经完成了数千次,只需使用现有的库或代码片段(查看 n-gram 维基百科页面的外部链接部分。)

    关于twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9143442/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com