gpt4 book ai didi

r - R 中有哪些强大的文本操作和预处理工具?

转载 作者:行者123 更新时间:2023-12-04 05:59:36 25 4
gpt4 key购买 nike

我经常使用 Hadley 的包 stringr清理杂乱的生态数据(规范化物种名称、格式错误的标签等)。最近开始学习sedawk并且对这些工具的强大功能感到震惊,尤其是在处理大量数据文件时。

我的问题:

  • 是否有其他强大的文本处理包(在 base 函数之外,以及在 stringr 中的那些)对数据清理有用?
  • 是否可以运行 sed R 中的命令/脚本?如果是这样,如何?你能给我一个例子吗?
  • 有没有人试图为 sed 写一个包装器?作为 R 包。如果没有,那是否值得追求(为我自己或更有能力的程序员做一个副项目)?
  • 最佳答案

    一、关于sedawk ,我一般不需要它们,因为它们特别老派。我经常用 Perl 编写正则表达式,并实现相同的目的,但可读性稍好一些。我不是要讨论实现的优点,但是当我不在 Perl 中编写此类函数时,我发现 gsub , grep ,以及相关的正则表达式工具在 R 中工作得很好。请注意,这些可能需要 perl = TRUE作为论据;我更喜欢 Perl 正则表达式处理。

    关于更严重的软件包, tm package特别值得注意。有关自然语言处理和文本挖掘资源的更多报道,请查看 CRAN Task View for NLP .

    另外,我认为您的问题标题混淆了两个概念。 sed 和 awk、正则表达式、标记化等工具是文本操作和预处理中的重要部分。文本挖掘更具统计性,取决于文本数据的有效预处理和量化。虽然没有提到,但随后的两个分析阶段,信息检索和自然语言处理,是其目标更具体的研究和工程领域。如果您主要对文本操作感兴趣,那么用于应用正则表达式和预处理/规范化的各种工具就足够了。如果你想做文本挖掘,你需要研究更多的统计函数。对于 NLP,则需要进行更深入分析的工具。所有这些都可以从 R 中访问,但问题是你想在这个兔子洞里走多远?想吞下红色药丸吗?

    关于r - R 中有哪些强大的文本操作和预处理工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8115440/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com