- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一些文本包含包含数字的短语,后跟一些符号。我想提取它们,例如,数字后跟百分比。使用 quanteda 包中的 kwic 函数似乎适用于数字作为正则表达式(例如 "\\d{1,}"
)。尽管如此,我没有找到如何使用 quanteda 提取它后跟一个百分号。以下文本可作为文本示例:
Thirteen (7%) of 187 patients acquired C. difficile in ICU-1, 9 (36%) of 25 on ICU-2 and 3 (5.9%) of 51 patients in BU. Eight (32%) developed diarrhoea attributable only to C. difficile and/ or toxin, and the remaining 17 (68%) were asymptomat- ic: none had pseudomembranous colitis.
最佳答案
原因是,当您直接在语料库或字符对象上调用 kwic()
时,它会将一些参数传递给 tokens()
,这会影响标记化的发生方式,在上下文中的关键字分析之前。 (这记录在 ?kwic
的 ...
参数中。)
quanteda 中的默认标记化使用 stringi 词边界定义,因此:
tokens("Thirteen (7%) of 187")
# tokens from 1 document.
# text1 :
# [1] "Thirteen" "(" "7" "%" ")" "of" "187"
如果您想使用更简单的空白标记器,可以使用:
tokens("Thirteen (7%) of 187", what = "fasterword")
# tokens from 1 document.
# text1 :
# [1] "Thirteen" "(7%)" "of" "187"
因此,在 kwic()
中使用它的方法是:
kwic(s, "\\d+%", valuetype = "regex", what = "fasterword")
# [text1, 2] Thirteen | (7%) | of 187 patients acquired C.
# [text1, 12] C. difficile in ICU-1, 9 | (36%) | of 25 on ICU-2 and
# [text1, 19] 25 on ICU-2 and 3 | (5.9%) | of 51 patients in BU.
# [text1, 26] 51 patients in BU. Eight | (32%) | developed diarrhoea attributable only to
# [text1, 41] toxin, and the remaining 17 | (68%) | were asymptomat- ic: none had
否则,您需要将正则表达式包装在 phrase()
函数中,并用空格分隔元素:
kwic(s, phrase("\\d+ %"), valuetype = "regex")
# [text1, 3:4] Thirteen( | 7 % | ) of 187 patients acquired
# [text1, 18:19] in ICU-1, 9( | 36 % | ) of 25 on ICU-2
# [text1, 28:29] on ICU-2 and 3( | 5.9 % | ) of 51 patients in
# [text1, 39:40] in BU. Eight( | 32 % | ) developed diarrhoea attributable only
# [text1, 60:61] and the remaining 17( | 68 % | ) were asymptomat- ic
这种行为可能需要一些时间来适应,但这是确保用户完全控制搜索多 token 序列的最佳方式,而不是实现一种确定多 token 元素应该是什么的单一方法输入尚未被标记化时的顺序。
关于r - quanteda kwic 提取数字后跟百分比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49764651/
我想拦截以\*#\*开头的字符串 后跟一个 0 到 7 之间的数字 并以:##结尾 所以像\*#\*0## 但是我找不到这个的正则表达式 最佳答案 假设你想允许只有一个 # 之前和两个之后,我会这样做
在阅读 C# 代码时,我发现了一个相当奇怪的片段: if( whatever is IDisposable) { (whatever as IDisposable).Dispose(); } 我宁
我在看别人的框架代码,我发现其中一个函数的参数接受了一个输入,输入后面跟着(.),当我检查输入的类型时,我发现它是一个结构不是枚举,这让我很困惑 这是函数的屏幕截图,输入看起来像一个枚举案例: 参数的
我对地址运算符后跟解引用运算符的行为有疑问。 让我们看一下表达式 &*p,其中 p 的类型为 int *。 C11 标准(第 6.5.3.2 节)说: The unary & operator yie
在我的团队中,我经常看到队友在写作 list.filter(_.isInstanceOf[T]).map(_.asInstanceOf[T]) 但这对我来说似乎有点多余。 如果我们知道过滤列表中的所有
请帮我解决这个问题。我已经尝试过删除和重新创建数据文件、刷新表、重新启动数据库和整个服务器。 InnoDB 处于 Force Recovery = 4 >mysql -u root Welcome t
如何使用 Swift3 在 UILabel 末尾添加 UIButton,就像阅读更多一样? 我已经使用 Storyboard创建了 UILabel 和 UIButton。 我不想使用任何 Pod
所以我即将将我的服务器迁移到新机器。我在新机器上安装较新版本的mysql 5.7.13,而旧版本的mysql 5.5.13。有一个查询不像以前那样工作与之前的服务器数据相同 select * fr
在 Andrei Alexandrescu 关于错误处理的演讲中: 见 C++ and Beyond 2012: Andrei Alexandrescu - Systematic Error Hand
我指的是本教程 http://www.tldp.org/LDP/abs/html/sha-bang.html#AEN226在 bash 上进一步提高我的知识,但我似乎无法使用网站中提到的脚本命令删除我
我正在尝试为允许 string 的对象编写类型s 作为键和 function s 带有任意数量的参数,后跟作为值的回调。 // non working dummy code type MyObject
我刚刚用 c 语言编写了一个使用命令行参数的程序,我试图打印第一个参数。当我使用以下命令执行程序时 ./a.out $23 并尝试使用下面的代码打印第一个参数 printf("%s", argv[1]
申请 UILongPressGestureRecongnizer一方面, 检查下面的代码以供引用.. @interface ViewController () { UIRotationGes
我正在使用 MPI 和 C 进行编程,并且使用根等级从文件中读取数据,然后将其分发到其余等级。我的 MPI_Scatter 工作正常,我打印出这些值以确保它们是正确的(而且确实如此)。我的问题是,分配
每当“Tskb”作为单个单词出现时,我必须使用 Java 正则表达式将“Tskb”转换为“TsKB”。我写了下面不起作用的代码。 public class TestBGR { priv
我有下面的代码(注意,我稍后会在循环中添加更多代码,但我需要它先工作): var calls_on = true; function hunt(max, ext, duration){ if(
在我的非根 VC 类中,我有以下 doLogout 方法: - (void)doLogout { SDPAppDelegate *app = [self getAppDelegate];
我的数据库中有很多地址。示例:1199 国道 218 我想选择起始数字,后跟第一个单词,并忽略地址的其余部分。所以我想通过调用这个来检索地址:1199 State 感谢您的帮助 最佳答案 如果您运行的
我正在创建一些客户端套接字软件来从服务器读取事件。 (例如,流媒体股票报价)。 问题: .read(b); 立即返回值-1。这会导致无限循环,手机会变得很热。此外,对 s.isConnected()、
我这里有这段代码: var fields = row.split(/regex goes here/); 我想在每次出现时分割行 | 但不是 *| 如何编写这个简单的正则表达式。我认为有一个不是字符,
我是一名优秀的程序员,十分优秀!