mysql - SQL - 计算词频-6ren

mysql - SQL - 计算词频

转载作者：行者123 更新时间：2023-11-30 22:11:54

我有一个包含多个列的数据库。其中一列包含一个段落，每一行都有自己的段落。每段中都有单词，我想计算所有列中的 double 数。

示例:

What is your name ?

Hello, my name is Quentin

His name is Quentin

结果必须是:

 - Name - 3
 - is - 3
 - Quentin - 2

最佳答案

评论太长了。

我建议您创建一个新表，其中包含每个段落的“词”(无论您如何定义它们)。

如何解析单词取决于您。一种方法是输出每一行的 id，然后使用 python 等工具将其转换为如下结构:

id    word    pos

然后您可以轻松地使用此表来回答您的问题。

关于mysql - SQL - 计算词频，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39832522/

Java - 词频
我在 Eclipse 中创建了一个 Java 程序。该程序计算每个单词的频率。例如，如果用户输入“I went to the shop”，程序将产生输出“1 1 1 2”，即 1 个字长 1 ('I'
r - R 中的文本分析 - 词频
我在工作中只有 R 可用，而且我以前用 Python 做过。我需要获取 CSV 文件中每组事件的计数。我在 Python 中进行了情绪分析，我在提供的表格中搜索了一本 Python 字典，其中包含每个
c++ - 词频 strcmp 使用结构数组无限工作
我想一个字一个字地读，然后将哪个字与我的结构数组中的字进行比较。如果我没有，我想在第一个空位添加。 #include #include #include #include using names
python - 使用文本搭配计算 ngram 词频
我想计算已转换为标记的文本文件中特定单词前后三个单词的频率。 from nltk.tokenize import sent_tokenize from nltk.tokenize import wor
java - 词频 - HashMap 或 TreeMap
我需要编写一个程序来计算文本中每个单词的频率，此外我需要能够返回 n 个最常用单词的列表(如果更多单词具有相同的频率(它们按字母顺序排序)。还有一个未计算在内的单词列表(停用词)。停用词使用什么结构
python - sklearn 的 TfidfVectorizer 词频？
我对 sklearn 的 TfidfVectorizer 在计算每个文档中单词的频率时有一个疑问。我看到的示例代码是: >>> from sklearn.feature_extraction.tex

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章