gpt4 book ai didi

regex - 使用 R 查找文本中的前十个单词

转载 作者:行者123 更新时间:2023-12-01 09:55:22 25 4
gpt4 key购买 nike

<分区>

我是 R 的新手,也是正则表达式的新手。我在其他讨论中寻找过这个,但找不到合适的匹配项。

我有一个很大的文本(书)数据集。我使用了以下代码来描述此文本中的单词:

> a <- gregexpr("[a-zA-Z0-9'\\-]+", book[1])

> regmatches (book[1], a)
[[1]]
[1] "she" "runs"

我现在想将整个数据集(书籍)中的所有文本拆分为单个单词,以便我可以确定整个文本中排名前十的单词是什么(对其进行标记化)。然后我需要使用表函数计算单词数,然后以某种方式排序以获得前十名。

此外,关于如何计算累积分布的任何想法,即需要多少个单词才能覆盖所有使用的单词的一半 (50%)?

非常感谢您的回复以及您对我的基本问题的耐心解答。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com