gpt4 book ai didi

r - 使用 R 和 cSplit() 将文本拆分为单词

转载 作者:行者123 更新时间:2023-12-01 13:50:00 25 4
gpt4 key购买 nike

我正在尝试将一系列句子拆分为单独的单词,即对文本进行标记。
我找到了一个 R 包 splitstackshape这能够做我想做的事,几乎......它将输出截断到前5行和最后5行。
无论如何,这就是我需要做的:

id text
1 Lorem ipsum dolor sit amet
2 consectetur adipiscing elit
3 Donec euismod enim quis
4 nunc fringilla sodales
5 Etiam tempor ligula vitae
6 pellentesque dictum
7 Quisque non justo scelerisque
8 est facilisis congue quis vel
9 Phasellus ex lorem
10 eleifend at magna vel
11 egestas eleifend massa
输出:
id word
1 Lorem
1 ipsum
1 dolor
1 sit
1 amet
2 consectetur
2 adipiscing
...
也就是说,我需要在单独的行中使用单词,但要与它所属的句子的 ID 一起显示。
我正在尝试 cSplit(data, "text", " ", "long") ,但它截断了..

更新。仅供引用,here反过来是怎么做的

最佳答案

cSplit函数返回 data.table .

您所描述的是 data.table 的默认打印行为s。要查看此操作,请尝试以下操作:

library(data.table)
as.data.table(airquality)
print(as.data.table(airquality))

print(as.data.table(airquality), nrows = Inf)

因此,要显示完整的表格,您可以尝试:
library(splitstackshape)
print(cSplit(data, "text", " ", "long"), nrows = Inf)

关于r - 使用 R 和 cSplit() 将文本拆分为单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32624120/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com