- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是一名研究人员,拥有大约 17,000 份自由文本文档,其中大约 30-40% 与我的结果相关。是否有一个开源工具可以用来确定与结果相关的最常见的单词(甚至短语,但不是必需的),并对已经出现的单词的频率进行标准化?所有文件都是由卫生保健 worker 编写的,因此规范化很重要,因为这两个文件中都会有技术语言,并且还希望筛选出“the”、“it”等词。
我想要做的是使用正则表达式或 NLP 构建一个工具,然后使用这些词来识别基于新文档的结果。我不打算花费大量时间来定制 NLP 工具,因此具有合理准确性的东西就足够了。
我知道 SAS、SQL(正在使用 postgreSQL)和 Python,但可能会在 R 中获得。我以前没有做过任何 NLP。有没有我可以使用的学习曲线不太陡峭的软件?谢谢!
最佳答案
tool I can use to determine the most common words...
... so something with reasonable accuracy is good enough.
tr -sc 'A-Z' 'a-z' < *.txt | tr -sc 'A-Za-z' '\n' | sort | uniq -c | sort -n -r
tr -sc 'A-Za-z' '\n' < filename.txt
tr -sc 'A-Za-z' '\n' < *.txt
tr -sc 'A-Za-z' '\n' < *.txt | sort
tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c
tr -sc 'A-Za-z' '\n' < *.txt | sort | uniq -c | sort -n -r
tr -sc 'A-Z' 'a-z' < *.txt | tr -sc 'A-Za-z' '\n' | sort | uniq -c | sort -n -r
tr '[:upper:]' '[:lower:]' < *.txt | tr -sc 'A-Za-z' '\n' | sort | uniq -c | sort -n -r
关于nlp - 文本挖掘 - 最常用的词,标准化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15553643/
我正在尝试提取 MultiLevelPushMenu 插件中当前元素的根路径。 https://github.com/adgsm/multi-level-push-menu 所有者给出了将根级路径提取
我目前使用 Excel 和 SQL Server 商业智能工作室来浏览我的模型,但我一直在寻找一个体面的、中等用户友好的前端应用程序,可用于通过 SSAS 挖掘模型跋涉。 我了解如何将预测用于特定目的
我正在尝试使用 GCC >= 4.4 中可用的 Graphite 循环优化框架,但如果迭代次数未知,我似乎无法让它应用任何转换。例如。这个示例代码: int __attribute__((hot))
我有一个具有以下数据格式的 XML 文件: .... 谁能告诉我如何使用 awk 单行程序对 XML 文件进行数据挖掘?例如,我想知道 abc 的 attr3。它会返回 345 给我。 最佳答案
场景:我在不同的 Azure 租户中有 2 个 AAD 应用程序 - 让我们调用租户 A 和 B。租户 A 中的应用程序定义了租户 B 中的应用程序已同意的自定义 appRole 和 oAuth2Pe
场景:我在不同的 Azure 租户中有 2 个 AAD 应用程序 - 让我们调用租户 A 和 B。租户 A 中的应用程序定义了租户 B 中的应用程序已同意的自定义 appRole 和 oAuth2Pe
我是一名优秀的程序员,十分优秀!