r - quanteda kwic 提取数字后跟百分比-6ren

r - quanteda kwic 提取数字后跟百分比

转载作者：行者123 更新时间：2023-12-05 03:06:12

25

4

我有一些文本包含包含数字的短语，后跟一些符号。我想提取它们，例如，数字后跟百分比。使用 quanteda 包中的 kwic 函数似乎适用于数字作为正则表达式(例如 "\\d{1,}")。尽管如此，我没有找到如何使用 quanteda 提取它后跟一个百分号。以下文本可作为文本示例:

Thirteen (7%) of 187 patients acquired C. difficile in ICU-1, 9 (36%) of 25 on ICU-2 and 3 (5.9%) of 51 patients in BU. Eight (32%) developed diarrhoea attributable only to C. difficile and/ or toxin, and the remaining 17 (68%) were asymptomat- ic: none had pseudomembranous colitis.

最佳答案

原因是，当您直接在语料库或字符对象上调用 kwic() 时，它会将一些参数传递给 tokens()，这会影响标记化的发生方式，在上下文中的关键字分析之前。 (这记录在 ?kwic 的 ... 参数中。)

quanteda 中的默认标记化使用 stringi 词边界定义，因此:

tokens("Thirteen (7%) of 187")
# tokens from 1 document.
# text1 :
# [1] "Thirteen" "("        "7"        "%"        ")"        "of"       "187"

如果您想使用更简单的空白标记器，可以使用:

tokens("Thirteen (7%) of 187", what = "fasterword")
# tokens from 1 document.
# text1 :
# [1] "Thirteen" "(7%)"     "of"       "187"

因此，在 kwic() 中使用它的方法是:

kwic(s, "\\d+%", valuetype = "regex", what = "fasterword")

#  [text1, 2]                    Thirteen |  (7%)  | of 187 patients acquired C.             
# [text1, 12]    C. difficile in ICU-1, 9 | (36%)  | of 25 on ICU-2 and                      
# [text1, 19]           25 on ICU-2 and 3 | (5.9%) | of 51 patients in BU.                   
# [text1, 26]    51 patients in BU. Eight | (32%)  | developed diarrhoea attributable only to
# [text1, 41] toxin, and the remaining 17 | (68%)  | were asymptomat- ic: none had

否则，您需要将正则表达式包装在 phrase() 函数中，并用空格分隔元素:

kwic(s, phrase("\\d+ %"), valuetype = "regex")

#   [text1, 3:4]             Thirteen( |  7 %  | ) of 187 patients acquired             
# [text1, 18:19]          in ICU-1, 9( | 36 %  | ) of 25 on ICU-2                       
# [text1, 28:29]       on ICU-2 and 3( | 5.9 % | ) of 51 patients in                    
# [text1, 39:40]         in BU. Eight( | 32 %  | ) developed diarrhoea attributable only
# [text1, 60:61] and the remaining 17( | 68 %  | ) were asymptomat- ic

这种行为可能需要一些时间来适应，但这是确保用户完全控制搜索多 token 序列的最佳方式，而不是实现一种确定多 token 元素应该是什么的单一方法输入尚未被标记化时的顺序。

关于r - quanteda kwic 提取数字后跟百分比，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49764651/

25

4

0

文章推荐： google-apps-script - Google App 脚本删除驱动器中的所有文件

文章推荐： date - 如何设置 Google Tasks 截止日期

文章推荐： spring-boot 默认的 EntityManager

文章推荐： lstm - Pytorch 隐藏状态 LSTM

Python 正则表达式匹配 # 后跟 0-7 后跟 ##
我想拦截以\*#\*开头的字符串后跟一个 0 到 7 之间的数字并以:##结尾所以像\*#\*0## 但是我找不到这个的正则表达式最佳答案假设你想允许只有一个 # 之前和两个之后，我会这样做
c# - 在 C# 中使用 "is"后跟 "as"而不是 "as"后跟 null 检查有什么意义？
在阅读 C# 代码时，我发现了一个相当奇怪的片段: if( whatever is IDisposable) { (whatever as IDisposable).Dispose(); } 我宁
Swift:结构看起来像枚举大小写，后跟 (.)
我在看别人的框架代码，我发现其中一个函数的参数接受了一个输入，输入后面跟着(.)，当我检查输入的类型时，我发现它是一个结构不是枚举，这让我很困惑这是函数的屏幕截图，输入看起来像一个枚举案例: 参数的
c - & 后跟 * 运算符的行为
我对地址运算符后跟解引用运算符的行为有疑问。让我们看一下表达式 &*p，其中 p 的类型为 int *。 C11 标准(第 6.5.3.2 节)说: The unary & operator yie
Scala:isInstanceOf 后跟 asInstanceOf
在我的团队中，我经常看到队友在写作 list.filter(_.isInstanceOf[T]).map(_.asInstanceOf[T]) 但这对我来说似乎有点多余。如果我们知道过滤列表中的所有
Mysql 1050 后跟 1051
请帮我解决这个问题。我已经尝试过删除和重新创建数据文件、刷新表、重新启动数据库和整个服务器。 InnoDB 处于 Force Recovery = 4 >mysql -u root Welcome t
swift - UILabel 后跟 UIButton
如何使用 Swift3 在 UILabel 末尾添加 UIButton，就像阅读更多一样？我已经使用 Storyboard创建了 UILabel 和 UIButton。我不想使用任何 Pod
mysql order by 后跟 group by
所以我即将将我的服务器迁移到新机器。我在新机器上安装较新版本的mysql 5.7.13，而旧版本的mysql 5.5.13。有一个查询不像以前那样工作与之前的服务器数据相同 select * fr
c++ - 为什么不 ~ 后跟::parse
在 Andrei Alexandrescu 关于错误处理的演讲中: 见 C++ and Beyond 2012: Andrei Alexandrescu - Systematic Error Hand
bash - Shebang 后跟 rm 命令不是自删除脚本
我指的是本教程 http://www.tldp.org/LDP/abs/html/sha-bang.html#AEN226在 bash 上进一步提高我的知识，但我似乎无法使用网站中提到的脚本命令删除我
typescript - 带有任意数量参数的函数，后跟 TypeScript 中的回调
我正在尝试为允许 string 的对象编写类型s 作为键和 function s 带有任意数量的参数，后跟作为值的回调。 // non working dummy code type MyObject
c - $ 后跟 C 命令行参数中的 char
我刚刚用 c 语言编写了一个使用命令行参数的程序，我试图打印第一个参数。当我使用以下命令执行程序时 ./a.out $23 并尝试使用下面的代码打印第一个参数 printf("%s", argv[1]
ios - 需要应用 UIRotationGestureRecognizer 后跟 UILongPressGestureRecongnizer
申请 UILongPressGestureRecongnizer一方面，检查下面的代码以供引用.. @interface ViewController () { UIRotationGes
c - MPI_Scatter() 后跟 malloc 会导致段错误
我正在使用 MPI 和 C 进行编程，并且使用根等级从文件中读取数据，然后将其分发到其余等级。我的 MPI_Scatter 工作正常，我打印出这些值以确保它们是正确的(而且确实如此)。我的问题是，分配
Java 正则表达式无法找到 "Ts"后跟 "kb"
每当“Tskb”作为单个单词出现时，我必须使用 Java 正则表达式将“Tskb”转换为“TsKB”。我写了下面不起作用的代码。 public class TestBGR { priv
javascript - setTimeout(callback) 后跟 while 循环从不触发
我有下面的代码(注意，我稍后会在循环中添加更多代码，但我需要它先工作): var calls_on = true; function hunt(max, ext, duration){ if(
iOS:popToRootViewControllerAnimated 后跟 performSegue 不起作用
在我的非根 VC 类中，我有以下 doLogout 方法: - (void)doLogout { SDPAppDelegate *app = [self getAppDelegate];
php - 选择起始数字，后跟 mysql 中的第一个单词
我的数据库中有很多地址。示例:1199 国道 218 我想选择起始数字，后跟第一个单词，并忽略地址的其余部分。所以我想通过调用这个来检索地址:1199 State 感谢您的帮助最佳答案如果您运行的
java - Android 套接字输入流读取(后跟 EPIPE)
我正在创建一些客户端套接字软件来从服务器读取事件。 (例如，流媒体股票报价)。问题: .read(b); 立即返回值-1。这会导致无限循环，手机会变得很热。此外，对 s.isConnected()、
javascript - 如何拆分(不是值)后跟(值)？
我这里有这段代码: var fields = row.split(/regex goes here/); 我想在每次出现时分割行 | 但不是 *| 如何编写这个简单的正则表达式。我认为有一个不是字符，

首页

博学

6Ren·AI

商城

r - quanteda kwic 提取数字后跟百分比