gpt4 book ai didi

r - 计算因子内的单词

转载 作者:行者123 更新时间:2023-12-04 06:44:14 25 4
gpt4 key购买 nike

我在一个标签为 Keyword.text 的列中有数百万个关键字。每个因素或关键字可以包含多个单词(或者我们说 token )。这是一个包含 4 个关键字的示例

关键字.文本
敏捷的棕色狐狸
.8 .crazy 懒狗

跳过+9

我想统计每个Keyword中的token数,得到:

关键字.长度
5
4
1
4

我安装了 Tau 包,但我还没有走多远......

 textcnt(Mydf$Keyword.text, split = "[[:space:][:punct:]]+", method = "string", n = 1L)

返回一个我不明白的错误。也许是因为有一些因素;用绳子练习时效果很好。

我知道如何在 excel 中做到这一点,但它不适用于最后一行。如果 A2 有关键字,则: =LEN(TRIM(A2))-LEN(SUBSTITUTE(A2,"",""))+1 会做

最佳答案

请显示错误。

还可以尝试:

require(tau)
textcnt(as character(Mydf$Keyword.txt), split, ....)

...强制字符模式。

或者使用 stringsAsFactors=FALSE 加载您的数据——同样的问题之前也出现过。

关于r - 计算因子内的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3893450/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com