- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
想要一些关于构建一个工具的想法,该工具可以扫描文本句子(用英语编写)并基于文本中出现最多的单词或短语建立关键字排名。
这与推特趋势非常相似,推特检测并报告推文中的前 10 个词。
我已经确定了算法中的高级步骤如下
最佳答案
实际上,您的第 1 步与第 3 步非常相似,因为您可能希望首先构建英语中最常用单词的绝对数据库。这样的列表在互联网上很容易找到(维基百科甚至有一篇文章引用了 100 most common words in the English language 。)您可以将这些词存储在哈希图中,并且在扫描您的文本内容时只需忽略常见的标记。
如果您不信任 Wikipedia 和现有的常用词列表,您可以构建自己的数据库。为此,只需扫描数千条推文(越多越好)并制作您自己的频率图。
您正面临类似 n-gram 的问题。
不要重新发明轮子。您似乎想要做的已经完成了数千次,只需使用现有的库或代码片段(查看 n-gram 维基百科页面的外部链接部分。)
关于twitter - 类似于 Twitter 趋势的关键字/词组趋势搜索算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9143442/
我想用 Java 编写一个正则表达式来匹配一个单词字符和空格序列,然后是一个单词字符和空格序列的“子类”字符序列: 应该匹配的示例字符串: a subclass of b a and b subcla
考虑到我们有以下输入数据表。 import pandas as pd #Pandas settings to see all the data when printing pd.set_option(
我们如何在同义词集中找到单词短语?特别是,将此同义词集用于形容词“booked”: booked, engaged, set-aside -- (reserved in advance) 我用的是Ri
我是一名优秀的程序员,十分优秀!