twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法-6ren

twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法

转载作者：行者123 更新时间：2023-12-04 05:59:00

28

4

想要一些关于构建一个工具的想法，该工具可以扫描文本句子(用英语编写)并基于文本中出现最多的单词或短语建立关键字排名。

这与推特趋势非常相似，推特检测并报告推文中的前 10 个词。

我已经确定了算法中的高级步骤如下

扫描文本并删除所有常见的、常用的词(例如，“the”、“is”、“are”、“what”、“at”等)

将剩余的单词添加到哈希图中。如果单词已经在 map 中，则增加其计数。

要获得前 10 个词，请遍历哈希图并找出前 10 个计数。

第 2 步和第 3 步很简单，但我不知道在第 1 步中如何检测文本中的重要词并将它们与常用词(介词、连词等)分开

另外，如果我想跟踪短语，可以采用什么方法？
例如，如果我有一条文字说“这个蜂蜜很好”
我可能想跟踪“honey”和“good”，但我也可能想跟踪短语“very good”或“honey is very good”

任何建议将不胜感激。

提前致谢

最佳答案

实际上，您的第 1 步与第 3 步非常相似，因为您可能希望首先构建英语中最常用单词的绝对数据库。这样的列表在互联网上很容易找到(维基百科甚至有一篇文章引用了 100 most common words in the English language 。)您可以将这些词存储在哈希图中，并且在扫描您的文本内容时只需忽略常见的标记。

如果您不信任 Wikipedia 和现有的常用词列表，您可以构建自己的数据库。为此，只需扫描数千条推文(越多越好)并制作您自己的频率图。

您正面临类似 n-gram 的问题。

不要重新发明轮子。您似乎想要做的已经完成了数千次，只需使用现有的库或代码片段(查看 n-gram 维基百科页面的外部链接部分。)

关于twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9143442/

28

4

0

文章推荐： rubygems.org，发布一个 gem 和额外的东西

文章推荐： performance - 关键字和标识符之间的有效区分

文章推荐： java - 如何在 Spring 中捕获 JSP 错误？

文章推荐：使用 JDOM 解析 XML

Java正则表达式匹配(词组)的(词组)子类
我想用 Java 编写一个正则表达式来匹配一个单词字符和空格序列，然后是一个单词字符和空格序列的“子类”字符序列: 应该匹配的示例字符串: a subclass of b a and b subcla
python - 根据关键字和位置数据识别文档中的 block /词组？
考虑到我们有以下输入数据表。 import pandas as pd #Pandas settings to see all the data when printing pd.set_option(
java - synset 中的 wordnet 词组
我们如何在同义词集中找到单词短语？特别是，将此同义词集用于形容词“booked”: booked, engaged, set-aside -- (reserved in advance) 我用的是Ri

首页

博学

6Ren·AI

商城

twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法