r - quanteda:带有新文本和旧词汇的 dtm-6ren

r - quanteda:带有新文本和旧词汇的 dtm

转载作者：行者123 更新时间：2023-12-04 08:36:10

26

4

我使用 quanteda 来构建文档术语矩阵:

library(quanteda)
mytext = "This is my old text"
dtm <- dfm(mytext, tolower=T)
convert(dtm,to="data.frame")

其中产生:

  doc_id this is my old text
1  text1    1  1  1   1    1

我需要将"new"文本(一个新的语料库)与我现有的 dtm 匹配(使用相同的词汇表，以便出现相同的矩阵列)
假设我的"new"文本/语料库是:

newtext = "This is my new text"

如何将这个"new"文本/语料库与现有的 dtm 词汇表相匹配，从而获得如下矩阵:

  doc_id this is my old text
1  text1    1  1  1   0    1

最佳答案

你要dfm_match() , 在转换为 data.frame 之前。

library(quanteda)
## Package version: 2.1.2

mytext <- c(oldtext = "This is my old text")
dtm_old <- dfm(mytext)
dtm_old
## Document-feature matrix of: 1 document, 5 features (0.0% sparse).
##          features
## docs      this is my old text
##   oldtext    1  1  1   1    1

newtext <- c(newtext = "This is my new text")
dtm_new <- dfm(newtext)
dtm_new
## Document-feature matrix of: 1 document, 5 features (0.0% sparse).
##          features
## docs      this is my new text
##   newtext    1  1  1   1    1

要匹配它们，请使用 dfm_match()使新的 dfm 符合旧的功能集和顺序:

dtm_matched <- dfm_match(dtm_new, featnames(dtm_old))
dtm_matched
## Document-feature matrix of: 1 document, 5 features (20.0% sparse).
##          features
## docs      this is my old text
##   newtext    1  1  1   0    1

convert(dtm_matched, to = "data.frame")
##    doc_id this is my old text
## 1 newtext    1  1  1   0    1

关于r - quanteda:带有新文本和旧词汇的 dtm，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64790786/

26

4

0

文章推荐： objective-c - 从非 ARC 代码中的 NSKeyedArchiver 中提取数据

文章推荐： uicollectionview - 更新期间可区分的数据源部分标题闪烁

jsf - java.lang.ClassCastException : org. apache.xml.dtm.ref.DTMManagerDefault 无法转换为 org.apache.xml.dtm.DTMManager
我想在我的应用程序中使用 Primefaces 和 Myfaces。但是有一个异常(exception)。 00:31:01,292 SEVERE [org.primefaces.config.Con
java - Tomcat/Java 错误 - org.apache.xml.dtm.ref.DTMManagerDefault 无法转换为 org.apache.xml.dtm.DTMManager
我在这个问题上花了两天时间!没有任何 Java 经验。想请教各位专家和乐于助人的人!我已经在谷歌上搜索了很多，但到目前为止未能解决问题。请求帮助!我需要知道的是如何解决这个问题。我正在尝试将 Web
Cannot invoke "com.sun.org.apache.xml.internal.dtm.ref.ExtendedType.getNodeType()"(无法调用“com.sun.org/apache.xml.internal.dtm.ref.ExtendedType.getNodeType（）”)
I see the below error randomly (not every time).我随机（不是每次）看到下面的错误。 Error while converting jaxb ob
Adobe DTM 数据元素更新
我正在寻找一种动态更新 DTM 中预定义数据元素的方法。一旦页面加载并且数据元素被初始化，就无法更新它们，_sattelite.setVar() 不起作用。我可以即时创建数据元素，但它不会在页面之间持
javascript - DTM - 将自定义事件附加到页面加载事件
我正在努力触发自定义事件(来自自定义代码)以及页面加载事件。例如当我的主页加载时，我想触发事件 1，如果我的数据元素满足特定条件，它应该触发事件 2。因此，在调试器中的调用中，我应该看到 event1
python - 从大型语料库创建 DTM
我有一组文本包含在一个列表中，我从一个 csv 文件加载 texts=['这是 text1', '这将是 text2', '这里我们有 text3'] 我想通过使用词干词创建一个文档术语矩阵。我还阻
r - quanteda:带有新文本和旧词汇的 dtm
我使用 quanteda 来构建文档术语矩阵: library(quanteda) mytext = "This is my old text" dtm <- dfm(mytext, tolower=
javascript - Adobe DTM 和具有不同数量元素的数组
在我们的网站上，我们有可以分配标签的页面，但我在弄清楚如何使用 Adobe DTM/Analytics 处理此问题时遇到了问题。每个页面可以在数组中捕获 1 到 n 个标签。我可以在开发者控制台中
javascript - Adobe DTM 和引用对象的时间
我遇到了 DTM 和引用 js 对象的时间问题。我注意到，有时，DTM 无法访问 Web 应用程序(ASP.net MVC 框架)创建的 js 对象。 js 对象是在 DTM 加载任何 js 之前创建
javascript - Adobe DTM 自定义页面加载规则
我们有一个包含多种产品的网站。我们的目标页面仅包含一种特定产品。现在我们需要一个页面加载规则，仅当网页或源代码中存在某些文本时才会触发。文本- SSO 或 SSU 或 SSI。任何人都可以提供 J
javascript - Adobe DTM 广告拦截器标识符
我的页面 JavaScript 中有一个 HTML 元素，当页面上存在广告拦截器时，该元素返回 true；当页面上没有广告拦截器时，该元素返回“False”。我是 DTM 新手，有一个关于在页面加载
javascript - 使用 DTM 和自定义变量进行链接跟踪
我需要使用 Adobe DTM 捕获单击的链接以及单击该链接的页面，然后将其传递到 evar 和 sprop。我不需要页面浏览量，因此使用 s.tl()。我使用基于事件的规则，其中“click”
python - 将 DTM 转换为文本
我想改造以下 DTM pd.DataFrame({"ID": [1,2,3,4,5], "t1": [0,0,1,1,0], "t2": [1,
javascript - Adobe DTM 中的过滤器链接跟踪问题
我在网络选项卡中遇到 adobe 图像请求问题，我可以在控制台中正确查看结果，但在图像请求中我看不到 Evar55 当前值。实际上存在错误分析跟踪问题- Evar55 Evar55 应该捕获用户在搜索
javascript - Adobe DTM 捕获选择的变化
我认为这很简单，但我不知道如何使用 DTM 来检测选择的 onChange？如果我在事件类型中选择“更改”，我会得到一个下拉列表来选择一个不是我想要的数据元素。那么我如何检测页面上选择的变化呢？我不关
javascript - DTM : _satellite not defined
我正在使用非顺序 HTML Javascript/第三方标签，我正在使用以下脚本将数据传递给第 3 方标签。 x = _satellite.getVar('Sub-Total'); 我遇到的
javascript - 如何在 DTM 中创建自定义脚本以在单个规则中单击并显示？
我有 2 个 id 1.show_ocancel_popup 和 2.cancel_order_button，第一个用于单击取消按钮时发出的通知，第二个用于确认按钮，我正在触发一条规则，该规则将在第一
javascript - Adobe DTM 选择器链不工作？
我正在尝试使用 CSS 选择器链使用以下代码中的数据元素获取路由号，但我不知道为什么我无法使用 CSS 选择器链获取文本(路由号)以下代码: Accounts Being ReviewedEasy C
javascript - 为什么 DTM 数据元素被调用两次？
我有一个使用默认值为“_Not_Set_”的自定义脚本的数据元素。数据元素中的代码是: var elemNavValue = _satellite.readCookie('navElemName');
javascript - DTM-s.t函数和页面加载规则的关系
我不清楚动态标记管理器(DTM)如何执行Adobe Analytics页面加载规则，尤其是何时触发Adobe Analytics请求(s.t函数)。 Adobe提供了此图(https://market

首页

博学

6Ren·AI

商城

r - quanteda:带有新文本和旧词汇的 dtm