gpt4 book ai didi

nlp - 文本挖掘 - 最常用的词,标准化

转载 作者:行者123 更新时间:2023-12-01 05:22:51 30 4
gpt4 key购买 nike

我是一名研究人员,拥有大约 17,000 份自由文本文档,其中大约 30-40% 与我的结果相关。是否有一个开源工具可以用来确定与结果相关的最常见的单词(甚至短语,但不是必需的),并对已经出现的单词的频率进行标准化?所有文件都是由卫生保健 worker 编写的,因此规范化很重要,因为这两个文件中都会有技术语言,并且还希望筛选出“the”、“it”等词。

我想要做的是使用正则表达式或 NLP 构建一个工具,然后使用这些词来识别基于新文档的结果。我不打算花费大量时间来定制 NLP 工具,因此具有合理准确性的东西就足够了。

我知道 SAS、SQL(正在使用 postgreSQL)和 Python,但可能会在 R 中获得。我以前没有做过任何 NLP。有没有我可以使用的学习曲线不太陡峭的软件?谢谢!

最佳答案

  tool I can use to determine the most common words... 
... so something with reasonable accuracy is good enough.

我建议先尝试使用 unix 文本工具。
来自coursera Natural Language Processing当然Word Tokenization Lesson,Youtube链接是 here .一个简单的教程 here .

我们使用 tr , uniqsort以此目的。如果您之前使用过 unix 文本工具,这里是完整的命令。
 tr -sc 'A-Z' 'a-z'  < *.txt | tr -sc 'A-Za-z' '\n'  | sort | uniq -c | sort -n -r

否则下面是每个部分的解释。
tr -sc 'A-Za-z' '\n' < filename.txt 

此命令将 filename.txt 更改为每个单词,实际上是在每个单词后添加新行。
tr -sc 'A-Za-z' '\n' < *.txt 

与上面相同,但目录中的所有 txt 文件。
tr -sc 'A-Za-z' '\n' < *.txt | sort 

管道您的命令进行排序。首先会以很多“一”字开头。
tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c 

管道排序结果到 uniq 命令并计算它。
tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c | sort -n -r

再次使用管道命令排序以查看最常用、最常用的单词。

问题在这里:'and' 和 'And' 计数两次
tr -sc 'A-Z' 'a-z'  < *.txt | tr -sc 'A-Za-z' '\n'  | sort | uniq -c | sort -n -r

或者
tr '[:upper:]' '[:lower:]' < *.txt | tr -sc 'A-Za-z' '\n'  | sort | uniq -c | sort -n -r

再次将所有单词更改为小写和相同的管道。这将为您提供文件中最常用的单词。

关于nlp - 文本挖掘 - 最常用的词,标准化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15553643/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com