gpt4 book ai didi

r - 提取因子水平的名称

转载 作者:行者123 更新时间:2023-12-01 22:24:08 24 4
gpt4 key购买 nike

<分区>

我正在尝试在 R 中读取一个巨大的矩阵 (2.8gb),因此,到目前为止,我发现的最好的是

 require(data.table)

DT<-fread("bigmatrix.csv")

我几乎一无所知!

在此之后我可以告诉你这个矩阵有 3 列和 5000 万行。

每一行都是类型

             object1                       object 2           distance
1: Kho.CENTRAL_KHOISAN.GWI Kho.CENTRAL_KHOISAN.GWI 0.0000000
2: Kho.CENTRAL_KHOISAN.GWI Kho.CENTRAL_KHOISAN.GXANA 0.2195843
3: Kho.CENTRAL_KHOISAN.GWI Kho.CENTRAL_KHOISAN.KHOEKHOEGOWAB 0.6749363
4: Kho.CENTRAL_KHOISAN.GWI Kho.CENTRAL_KHOISAN.KHWE 0.6089206
5: Kho.CENTRAL_KHOISAN.GWI Kho.CENTRAL_KHOISAN.KORANA 0.7163111
6: Kho.CENTRAL_KHOISAN.GWI Kho.CENTRAL_KHOISAN.KWADI 0.8017179

所以它正在比较大约 6900 个对象的 2 个对象的距离

现在我的问题来了:

我只想提取 41 个对象的成对比较。但是我不知道给我这个数据集的人是怎么称呼这 41 个对象的!!

所以我的解决方案是找到 DT$object1 的级别,将它们写入文件,然后扫描它们以找到我需要的 41,我该怎么做?

我试过了

foo<-factor(DT$object1)

所以当我打电话

foo

....

6895 Levels: AA.BEJA.BEJA AA.BEJA.BEJA_2 AA.BERBER.AWJILAH ... Zun.ZUNI.ZUNI

但是

foo$Levels

给我一​​个错误!

我确信有比我在 C++ 中做的更聪明的方法(即遍历每一行,仅当对象 1 的名称不存在时才将其插入字符串向量中),但我该怎么做是吗?


编辑:现在出现另一个问题:

我已经确定了我需要的 41 个对象,我如何从 data.table 中提取与我相关的行?

我可以将对象的名称存储在数据框或向量中

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com