- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
假设我有以下字符串:
"hello&^uevfehello!`.<hellohow*howdhAreyou"
我将如何计算作为它的子字符串的英语单词的频率?在这种情况下,我想要这样的结果:
{'hello': 3, 'how': 2, 'are': 1, 'you': 1}
我搜索了与此问题类似的上一个问题,但我找不到任何有效的方法。一个接近的解决方案似乎是使用正则表达式,但它也不起作用。这可能是因为我实现错误,因为我不熟悉它的实际工作原理。
How to find the count of a word in a string?这是最后的答案
from collections import *
import re
Counter(re.findall(r"[\w']+", text.lower()))
我还尝试创建一个非常糟糕的函数,该函数遍历字符串中连续字母的每一种可能排列(最多 8 个字母左右)。这样做的问题是
1) 它比应该的要长很多
2) 它添加了额外的单词。例如:如果字符串中有“hello”,也会找到“hell”。
我不太熟悉正则表达式,这可能是执行此操作的正确方法。
最佳答案
d, w = "hello&^uevfehello!`.<hellohow*howdhAreyou", ["hello","how","are","you"]
import re, collections
pattern = re.compile("|".join(w), flags = re.IGNORECASE)
print collections.Counter(pattern.findall(d))
输出
Counter({'hello': 3, 'how': 2, 'you': 1, 'Are': 1})
关于python - 没有空格和特殊字符的字符串中的词频?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21902569/
我在 Eclipse 中创建了一个 Java 程序。该程序计算每个单词的频率。例如,如果用户输入“I went to the shop”,程序将产生输出“1 1 1 2”,即 1 个字长 1 ('I'
我在工作中只有 R 可用,而且我以前用 Python 做过。我需要获取 CSV 文件中每组事件的计数。我在 Python 中进行了情绪分析,我在提供的表格中搜索了一本 Python 字典,其中包含每个
我想一个字一个字地读,然后将哪个字与我的结构数组中的字进行比较。如果我没有,我想在第一个空位添加。 #include #include #include #include using names
我想计算已转换为标记的文本文件中特定单词前后三个单词的频率。 from nltk.tokenize import sent_tokenize from nltk.tokenize import wor
我需要编写一个程序来计算文本中每个单词的频率,此外我需要能够返回 n 个最常用单词的列表(如果更多单词具有相同的频率(它们按字母顺序排序)。还有一个未计算在内的单词列表(停用词)。 停用词使用什么结构
我对 sklearn 的 TfidfVectorizer 在计算每个文档中单词的频率时有一个疑问。 我看到的示例代码是: >>> from sklearn.feature_extraction.tex
我是一名优秀的程序员,十分优秀!