r - 从标签向量列表创建标签频率的数据框-6ren

r - 从标签向量列表创建标签频率的数据框

转载作者：行者123 更新时间：2023-12-04 22:34:42

24

4

我正在用 R 编写一个函数来查找类型对话的形式统计(一种语言度量)。我使用 openNLP 的词性标注器来标记单词(很棒的工具，但速度很慢，因为它正在做一些繁重的工作)。无论如何，此功能已经存在时间问题，我遇到了一个问题，我想尽快使其运行。我开始用令人费解的术语思考，并且知道我需要一些集体的集体思考来解决这个问题。

我有一个带有标签的向量列表，如下所示:

G 
[[1]]
[1] "MD"  "DT"  "NN"  "VB"  "VBG" "TO"  "POS"

[[2]]
[1] "DT" "NN" "JJ" "RB"

[[3]]
[1] "RB"  "TO"  "PRP"

[[4]]
[1] "VBZ" "PRP" "VBG" "RB"  "TO"  "NN" 

[[5]]
[1] "NN" "NN"

对于每个向量，我想计算所有可能标签的出现频率(将插入一个不包含标签的向量的零)并生成如下所示的数据帧结构:

  DT  JJ  MD  NN  POS PRP RB  TO  VB  VBG VBZ
1  1   0   1   1    1   0  0   1   1    1   0
2  1   1   0   1    0   0  1   0   0    0   0
3  0   0   0   0    0   1  1   1   0    0   0
4  0   0   0   1    0   1  1   1   1    1   1
5  0   0   0   2    0   0  0   0   0    0   0

我已经开始考虑下面的问题以及假数据集。我最初想用这个表，但我不确定 9 因为我知道这比说使用 rle 或 match 或索引 [ 慢，如果可以使用这些中的任何一个。我还考虑过在这些向量上使用 Reduce 和 merge 来进行多重合并，但我知道 R 中的高阶函数可能比其他方法慢(也许这可以通过一些甜蜜的索引来完成)。

无论如何，我将非常感谢您对这个问题的帮助。我正在寻找的两个参数是:

基本解决方案

速度

数据和我的初步想法(表可能走错了路:

G <- list(c("MD", "DT", "NN", "VB", "VBG", "TO", "POS"), c("DT", "NN", 
"JJ", "RB"), c("RB", "TO", "PRP"), c("VBZ", "PRP", "VBG", "RB", 
"TO", "NN"), c("NN", "NN"))

P <- lapply(G, function(x) table(sort(x)))  #to get frequencies on each word
sort(unique(names(unlist(P))))  #to get the column names and number

为线程名称道歉，因为这是一个很难分类的。

编辑:(添加基准标记结果)

很有创意的回答。我什至没有考虑因子解决方案和指定水平。聪明的。对于速度 Joran 的第二个答案风(我刚刚使用您已经创建的 lev 重新添加了列名称。mdsummer 的响应是最少的代码，并且与速度并列第二。我将采用 Joran 的第二个响应，因为它将使我获得最好的速度提升。谢谢大家!非常感谢:) 比较可作为要点 https://gist.github.com/trinker/91802b8c4ba759034881

       expr        min         lq      mean     median        uq       max neval
   JORAN1()  648.04435  689.16756  714.9142  712.59122  732.4991  831.6623   100
   JORAN2()   86.83879   92.91911   98.7068   97.44690  101.6764  177.4228   100
   RINKER()   87.40797   94.07564  100.1154   98.39624  104.0887  177.3146   100
      TIM()  900.65847  964.23419  993.9475  988.89306 1023.0587 1137.6263   100
 MDSUMMER() 1395.95920 1487.45279 1527.3181 1527.92664 1571.0997 1685.3298   100

最佳答案

我会这样做:

lev <- sort(unique(unlist(G)))

G1 <- do.call(rbind,lapply(G,function(x,lev){ table(factor(x,levels = lev,
                                                     ordered = TRUE))},lev = lev))

     DT JJ MD NN POS PRP RB TO VB VBG VBZ
[1,]  1  0  1  1   1   0  0  1  1   1   0
[2,]  1  1  0  1   0   0  1  0  0   0   0
[3,]  0  0  0  0   0   1  1  1  0   0   0
[4,]  0  0  0  1   0   1  1  1  0   1   1
[5,]  0  0  0  2   0   0  0  0  0   0   0

或者为了更快的速度(但丢失列名):

G1 <- do.call(rbind,lapply(G,function(x,lev){ tabulate(factor(x,levels = lev,
                                ordered = TRUE),nbins = length(lev))},lev = lev))

关于r - 从标签向量列表创建标签频率的数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9961209/

24

4

0

文章推荐： .net - 使用 Get-Member 进行反射

文章推荐： ssl - 本地主机上的 Vite https

r - 按月计算的观察次数/频率
我有一个包含 34 个变量和大约 25,000 个观测值的数据集。每个观察都涉及一个特定事件。它的格式如下: no id date .... 1 363 006
r - 按月绘制单词的推文计数/频率
我已将 R 连接到 Twitter 并使用 R 中的 searchTwitter 函数进行抓取，并清除标点符号、小写字母等结果数据。现在我正在尝试执行以下操作: 计算自 2015 年 1 月至 20
c++ - 频率-线性仓到对数屏幕空间
我正在研究项目，需要可视化频谱分析以设置一些精确参数。现在，我将垃圾箱转换为屏幕空间，因为在线性空间中，较低频率的幅度被压缩在一起。这是我在C++中的代码: float windowSize = 64
matlab - 频率:在MATLAB中使用FFT的分贝图
我正在尝试使用MATLAB导入WAV文件并创建如下所示的图表类型。我基本上是在尝试获取频率信息并根据分贝对其进行绘制。这是我正在使用的代码，但似乎无法正确提取频率信息: [x fs]=wavread(
java - 计算字符串中字符的出现次数(频率)
我有一个 GUI，可以计算字符串中第一个字母的出现次数。我希望它以列格式计算所有字母，例如: 这是我到目前为止所拥有的: import java.awt.BorderLayout; import ja
r - 计算调查对象中某个值的百分比/频率
我有一个由许多变量组成的全国调查，就像这个(为了简单起见，我省略了一些变量): year id y.b sex income married pens weight 2002
事件的 SQL 频率
我被要求报告我们客户的联系频率，即每周、每月、每季度或每年看到多少客户。当在论坛中讨论“频率”时，它们通常是指某个值在表中存在的次数。我可以获得客户的联系人数量:- select A.cl
c# - 读取麦克风分贝和音调/频率
我正在尝试制作一款游戏，当麦克风发出足够响亮的声音时，我的角色会射击(在 Unity 中)。但是我不知道如何开始。感谢您的帮助! 最佳答案您可以通过使用 AudioSource.GetOutput
使用函数(频率)计算字符数
尝试计算字符数并改进我的代码，我做了一些更改，而不是使用 while 循环。好奇是否有人对我如何改进我的代码以使其更专业且更便宜有任何建议？ #include int countingCharact
php - 如何分析带有时间戳的条目的事件/频率？
我正在创建一个 MySQL 数据库，其中包含大量带有时间戳的条目。这些条目将附加到特定用户和另一个索引(例如博客作者和他的几个网站)。计算用户/全局每日条目图表的最佳方法是什么。我的两种方法是使用
MySQL 频率/分布
我创建了一项调查并将其发送出去。该调查要求用户提供电子邮件，然后要求他们从包含 8 个不同选项的下拉菜单中选择要吃哪顿饭。有些人使用同一封电子邮件多次填写调查，但食物选择不同。我有一个如下所示的 M
日期范围内的 MySQL 频率
我有一个 MySQL 数据库: Date Customer_ID 我怎样才能把它变成: Customer_ID | Count_Visits_Past_Week | Count_Visits_
bash - Gnuplot 频率
对于非常大的数据集，如何使用 gnuplot 仅在第一个和最后一个数据点的 x 轴上放置标记/标签？最佳答案在 gnuplot 4.6 及更高版本中，您可以使用命令 stats 'data.dat
python - 相关词的概率计数/频率？
我正在寻找一种方法来为具有共同词根/含义的单个词生成数值概率值。用户将使用“舞者”、“跳舞”、“跳舞”等词生成内容。如果“dancer”被提交了 30 次，跳舞了 5 次，我只需要一个值“danc
python - 时间序列数据的运行平均值/频率？
给定一个包含如下内容的数据集: [2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 65, 75, 85, 86, 87,
java - 绘制声音的音高(频率)
我想将声音的音高绘制成图表。目前我可以绘制幅度。下图是由 getUnscaledAmplitude() 返回的数据创建的: AudioInputStream audioInputStream = A
javascript - 计算数组元素的出现/频率
在 Javascript 中，我试图获取一个初始的数值数组并计算其中的元素。理想情况下，结果将是两个新数组，第一个指定每个唯一元素，第二个包含每个元素出现的次数。不过，我愿意接受有关输出格式的建议。
multithreading - InfiniBand:传输速率取决于MPI_Test *频率
我正在编写一个多线程OpenMPI应用程序，使用来自多个线程的MPI_Isend和MPI_Irecv在InfiniBand RDMA的各个列之间每秒交换数百条消息。传输量约为400-800KByte
.net - 创建包含多个音符(频率)的声音
这个站点上有很多问题，询问如何在给定频率下创建简单的正弦波。我想做的是获取阵列或列表或任何频率，然后连续连续播放它们(而不是和弦)，听起来有点像旧PC扬声器。我尝试使用Console.Beep，但是它
iphone - iPhone-识别波形/频率
我使用我的App捕获声音。假设此声音是正弦1 KHz声音，并且存在背景声音。如何识别此1 KHz声音出现在声音上？我的意思是，我可以想象如何在图像中找到元素，例如，如果您要在图像上寻找黄色正方形，那

首页

博学

6Ren·AI

商城

r - 从标签向量列表创建标签频率的数据框