gpt4 book ai didi

lucene - 从大文本构建单词词典

转载 作者:行者123 更新时间:2023-12-01 13:06:40 25 4
gpt4 key购买 nike

我有一个包含英语/意大利语帖子的文本文件。我想将帖子读入数据矩阵,以便每一行代表一个帖子,每一列代表一个单词。矩阵中的单元格是每个单词在帖子中出现的次数。词典应包含整个文件中的所有单词或非详尽的英语/意大利语词典。

我知道这是 NLP 的常见基本预处理步骤。而且我知道编写代码非常简单,但我还是想使用一些 NLP 领域特定的工具,这样我就可以修剪停用词等。

有人知道可以执行此任务的工具\项目吗?

有人提到apache lucene,请问lucene index是否可以序列化成类似我需求的data-structure?

最佳答案

也许你想看看GATE .它是文本挖掘和处理的基础设施。这就是 GATE 所做的(我从网站上得到的):

  • 能够解决几乎所有文本处理问题的开源软件
  • 成熟而广泛的开发者、用户、教育 worker 、学生和科学家社区
  • 用于创建稳健且可维护的文本处理工作流的明确且可重复的过程
  • 积极用于各种语言处理任务和应用程序,包括:客户的声音;癌症研究;药物研究;决策支持;招聘;网络挖掘;信息提取;语义标注
  • 自 1995 年以来,由商业用户、EC、BBSRC、EPSRC、AHRC、JISC 等资助的数百万欧元研发计划的结果。
  • 被世界各地的公司、中小企业、研究实验室和大学使用
  • 自然语言工程的 Eclipse、信息提取的 Lucene、文本挖掘的 ISO 9001

关于lucene - 从大文本构建单词词典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2587757/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com