gpt4 book ai didi

r - 在 R 中,如何在数据框中找到所有字典单词的位置?

转载 作者:行者123 更新时间:2023-12-05 09:27:27 27 4
gpt4 key购买 nike

我正在分析公司 session ,我想衡量 session 中的人们在什么时间提出某些主题。时间意味着单词的位置。

例如,在三个 session 中,人们什么时候提出“unionizing”和我字典中的其他词?

df <- data.frame(text = c("we're meeting here today to talk about our earnings. we will also discuss unionizing efforts.", "hi all, unionizing and the on-going strike is at the top of our agenda, because unionizing threatens our revenue goals.", "we will discuss unionizing tomorrow, today the focus is our Q3 earnings"))

dict <- c("unions", "strike", "unionizing")

期望的输出:

<表类="s-表"><头>正文计数单词<正文>我们今天在这里见面...(词的位置)工会化大家好,工会...(词的位置)工会化大家好,工会...(词的位置)罢工大家好,工会...(词的位置)工会化我们明天将讨论成立工会...(词的位置)工会化

我问了一个关于查找第一次使用单词的问题,here ,我尝试修改代码,但没有成功。

最佳答案

使用量化:

首先分词并去除标点符号,否则标点符号将被算作一个分词。使用 kwic 的优点是您可以轻松地看到哪些词出现在您要查找的词之前和之后。

library(quanteda)

x <- kwic(tokens(df$text, remove_punct = T), dict)
data.frame(x)

docname from to pre keyword post pattern
1 text1 14 14 earnings we will also discuss unionizing efforts unionizing
2 text2 3 3 hi all unionizing and the on-going strike is unionizing
3 text2 7 7 all unionizing and the on-going strike is at the top of strike
4 text2 16 16 top of our agenda because unionizing threatens our revenue goals unionizing
5 text3 4 4 we will discuss unionizing tomorrow today the focus is unionizing

关于r - 在 R 中,如何在数据框中找到所有字典单词的位置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72428417/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com