nlp - 文本挖掘 - 最常用的词，标准化-6ren

nlp - 文本挖掘 - 最常用的词，标准化

转载作者：行者123 更新时间：2023-12-01 05:22:51

30

4

我是一名研究人员，拥有大约 17,000 份自由文本文档，其中大约 30-40% 与我的结果相关。是否有一个开源工具可以用来确定与结果相关的最常见的单词(甚至短语，但不是必需的)，并对已经出现的单词的频率进行标准化？所有文件都是由卫生保健 worker 编写的，因此规范化很重要，因为这两个文件中都会有技术语言，并且还希望筛选出“the”、“it”等词。

我想要做的是使用正则表达式或 NLP 构建一个工具，然后使用这些词来识别基于新文档的结果。我不打算花费大量时间来定制 NLP 工具，因此具有合理准确性的东西就足够了。

我知道 SAS、SQL(正在使用 postgreSQL)和 Python，但可能会在 R 中获得。我以前没有做过任何 NLP。有没有我可以使用的学习曲线不太陡峭的软件？谢谢!

最佳答案

  tool I can use to determine the most common words... 
  ... so something with reasonable accuracy is good enough.

我建议先尝试使用 unix 文本工具。
来自coursera Natural Language Processing当然Word Tokenization Lesson，Youtube链接是 here .一个简单的教程 here .

我们使用 tr , uniq和 sort以此目的。如果您之前使用过 unix 文本工具，这里是完整的命令。

 tr -sc 'A-Z' 'a-z'  < *.txt | tr -sc 'A-Za-z' '\n'  | sort | uniq -c | sort -n -r

否则下面是每个部分的解释。

tr -sc 'A-Za-z' '\n' < filename.txt

此命令将 filename.txt 更改为每个单词，实际上是在每个单词后添加新行。

tr -sc 'A-Za-z' '\n' < *.txt

与上面相同，但目录中的所有 txt 文件。

tr -sc 'A-Za-z' '\n' < *.txt | sort

管道您的命令进行排序。首先会以很多“一”字开头。

tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c

管道排序结果到 uniq 命令并计算它。

tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c | sort -n -r

再次使用管道命令排序以查看最常用、最常用的单词。

问题在这里:'and' 和 'And' 计数两次

tr -sc 'A-Z' 'a-z'  < *.txt | tr -sc 'A-Za-z' '\n'  | sort | uniq -c | sort -n -r

或者

tr '[:upper:]' '[:lower:]' < *.txt | tr -sc 'A-Za-z' '\n'  | sort | uniq -c | sort -n -r

再次将所有单词更改为小写和相同的管道。这将为您提供文件中最常用的单词。

关于nlp - 文本挖掘 - 最常用的词，标准化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15553643/

30

4

0

文章推荐： perl - 通过脚本识别静态库之间的循环依赖

文章推荐： jsf-2 - 如何通过服务器端重置数据表过滤器

文章推荐： elasticsearch - 如何使用Elasticsearch处理多个更新/删除？

javascript - 挖掘 JavaScript 对象的路径
我正在尝试提取 MultiLevelPushMenu 插件中当前元素的根路径。 https://github.com/adgsm/multi-level-push-menu 所有者给出了将根级路径提取
sql-server - 用于检查/挖掘 SQL 分析服务挖掘模型的前端应用程序
我目前使用 Excel 和 SQL Server 商业智能工作室来浏览我的模型，但我一直在寻找一个体面的、中等用户友好的前端应用程序，可用于通过 SSAS 挖掘模型跋涉。我了解如何将预测用于特定目的
gcc 可以对未知的迭代次数进行循环优化( strip 挖掘/阻塞)吗？
我正在尝试使用 GCC >= 4.4 中可用的 Graphite 循环优化框架，但如果迭代次数未知，我似乎无法让它应用任何转换。例如。这个示例代码: int __attribute__((hot))
python - 如何使用 awk、Perl 或 Python 挖掘 XML 文档？
我有一个具有以下数据格式的 XML 文件: .... 谁能告诉我如何使用 awk 单行程序对 XML 文件进行数据挖掘？例如，我想知道 abc 的 attr3。它会返回 345 给我。最佳答案
Azure Active Directory - 从 JWT token 挖掘 oAuth2Permission、appRole 和组声明
场景:我在不同的 Azure 租户中有 2 个 AAD 应用程序 - 让我们调用租户 A 和 B。租户 A 中的应用程序定义了租户 B 中的应用程序已同意的自定义 appRole 和 oAuth2Pe
Azure Active Directory - 从 JWT token 挖掘 oAuth2Permission、appRole 和组声明
场景:我在不同的 Azure 租户中有 2 个 AAD 应用程序 - 让我们调用租户 A 和 B。租户 A 中的应用程序定义了租户 B 中的应用程序已同意的自定义 appRole 和 oAuth2Pe

首页

博学

6Ren·AI

商城

nlp - 文本挖掘 - 最常用的词，标准化