regex - 如何将 POS 与单词分开-6ren

regex - 如何将 POS 与单词分开

转载作者：行者123 更新时间：2023-12-02 03:38:15

25

4

需要创建文本空间矩阵 (DTM) 进行分类。要准备文本，首先我需要消除(分离)文本的 POS 标签。我的猜测是像下面那样做。我是 R 的新手，现在不知道如何否定 REGEX(见下文 NOT!)。

text <- c("wenn/KOUS ausläuft/VVFIN ./$.", "Kommt/VVFIN vor/PTKVZ ;/$.", "-RRB-/TRUNC Durch/APPR und/KON", "man/PIS zügig/ADJD ./$.", "empfehlung/NN !!!/NE")

我猜它是如何工作的:

(POSs <- regmatches(text, gregexpr('[[:punct:]]*/[[:alpha:][:punct:]]*', text)))
[[1]]
[1] "/KOUS"  "/VVFIN" "./$."  

[[2]]
[1] "/VVFIN" "/PTKVZ" ";/$."  

[[3]]
[1] "-/TRUNC" "/APPR"   "/KON"   

[[4]]
[1] "/PIS"  "/ADJD" "./$." 

[[5]]
[1] "/NN"    "!!!/NE"

但是不知道如何否定这样的表达式:

#                          VVV
(texts <- regmatches(text, NOT!(gregexpr('[[:punct:]]*/[[:alpha:][:punct:]]*', text))))
[[1]]
[1] "wenn"  "ausläuft"  

[[2]]
[1] "Kommt" "vor"  

[[3]]
[1] "Durch"   "und"   

[[4]]
[1] "man"  "zügig"

[[5]]
[1] "empfehlung"

最佳答案

一种可能性是通过搜索 POS 标签并将其替换为 ''(即空文本)来消除标签:

text <- c("wenn/KOUS ausläuft/VVFIN ./$.", "Kommt/VVFIN vor/PTKVZ ;/$.", "-RRB-/TRUNC Durch/APPR und/KON", "man/PIS zügig/ADJD ./$.", "empfehlung/NN !!!/NE")

(textlist <- strsplit(paste(gsub('[[:punct:]]*/[[:alpha:][:punct:]]*','', text), sep=' '), " "))
[[1]]
[1] "wenn"     "ausläuft"

[[2]]
[1] "Kommt" "vor"  

[[3]]
[1] "-RRB"  "Durch" "und"  

[[4]]
[1] "man"   "zügig"

[[5]]
[1] "empfehlung"

在 rawr 的友好帮助下

关于regex - 如何将 POS 与单词分开，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21949394/

25

4

0

文章推荐： OpenGL纹理坐标和小 float 的精度

文章推荐： php - 导出为 csv 时，货币英镑显示为 £

文章推荐： cassandra - 如何生成查询来克隆现有表

ios - 与 ","分开？
我像那样遍历数组。 NSArray *array = [[currentRaum raumattribute] allObjects]; NSString *compositeString =
python - 查找重复的字符(分开)
我想找到所有引用这种模式的子字符串:一些字符+一些字符+第一个字符。现在我在 Python 2.7 中有了这个: T = "i was here" m = re.findall(r"([a-z])[a
r - 使用不同长度的向量与 tidyr 分开
我想使用与 tidyr 分开将一列字符串(例如 [1, 58, 10] )分成几列。我的问题是有时列较短(永远不会更长)。我在同一个数据框中有很多列有这个问题。加载包 require(tidyr)
qt - 将数据处理与 GUI 分开
我正在开发一个具有图形用户界面的网络测试工具。我现在面临的问题是，我无法将基础数据与 GUI 类分开。该应用程序由一个 QMainWindow 组成，它随后生成多个其他 QDialogs 并具有一些
unix - 将策略与机制 : What does it mean? 分开
我经常听到“策略与机制分离”的口头禅，尤其是在 Unix 哲学的背景下。这是什么意思，有哪些具体的例子？什么时候/为什么是/不是一件好事？最佳答案它基本上是将需求或业务功能与技术实现分离。机制是技
cocoa - 将文件名与文件扩展名 Cocoa 分开？
我正在使用 writeToFile:atomically: 方法将一些加密数据写入文本文件。问题是，需要保存的文件必须是用户加密的文件，并带有我选择的扩展名。这是我到目前为止所拥有的: [encryp
rust - 试图把 rust 分开
我有这串 abcdef x y z 或这个 "ab cd ef" x y z 我正试图将其解析为 s1 = "abcdef" arr = ["x","y","z"] 或者 s1 = "ab cd e
javascript - 我是否需要将每个页面的 javascript 分开？
这个问题已经有答案了: One big javascript file or multiple smaller files? [duplicate] (7 个回答) 已关闭 6 年前。我有 4 种类
angularjs - 将模型与 Controller 分开
我有这样的事情 - function DetailCtrl($scope) { $scope.persons = [{ id: 1, name: "Mark"
javascript - 使用应用程序脚本在谷歌电子表格中拆分(分开)合并表格单元格
在操作(复制/移动)包含合并单元格的范围时，我总是收到错误消息“您的粘贴与合并单元格重叠。请取消合并单元格，然后重试”。但是，当尝试使用 Range#breakApart 取消合并范围内的单元格时，我
ios - 据说通过编辑副本将被污染的 NSArray 分开
我有一个包含一些 TextFields 的 TableView。所述 TextFields 的值链接到二维数组(NSMutableArrays 的 NSArray)中的某些位置。一个初始的干净数组定
css - 如何将标签文本分别与 div 分开？
我定义了一个标签，其中一半需要在左侧，另一半文本需要在右侧。我怎样才能解决这个问题，让另一半拉对？我添加了 margin-right 以使文本向右拉，但它与其他 div 不一致。
javascript - 创建正则表达式以将每个单词与分开。 (点)
我正在尝试创建一个正则表达式来将 JavaScript 中的每个单词与 .(点)分开。 function myFunction() { var url = "in.k1.k2.k3.k4.com"
html - 正文和背景部分使用 CSS 分开
如何使用 CSS 将网站的正文/内容区域与背景分开。为了向您展示我的意思，请看附图。因此，两侧的背景将扩展到拥有超大显示器的人，但内容将始终保持相同大小。谢谢，阿马尔 http://i.imgur.
html - 两张背景图片对 Angular 分开
有可能用 CSS 将两个背景图像对 Angular 分开吗？我知道如何只用一张图片制作它，但我不能用两张图片制作它。这是一个例子: |-------------| | /|
html - 如何将连接在一起的两个多列 `
` 分开？
这是一个JSFiddle我创建了展示代码的外观。我将如何给予这些它们之间是否存在间隙，没有一个元素低于另一个元素？ .main-content { width: 50%; float: le
python - 如何将周一至周五与周六和周日 Pandas 分开？
我正在处理具有这样数据的项目(我使用带有 python 的 pandas 框架): days rain 0 1 2 0 3 1 1
c - 将不同类型的参数与 va_list 分开
我正在尝试编写一个宏来获取信息并将该信息发送到另一个函数，方法是将原始 va_list 拆分为字符串，然后从原始 va_list 生成另一个 va_list。下面是我的代码。调用宏 /* Usag
c# - 将键值与 LinQ 分开
我需要来自 SharedToDomains 和 SharedFromDomains 的键和值数据。我想打印这些值。 var LogResponse = DeserializeFromJson(sLog
ios - 我如何将我的网络代码与我的 ViewController 分开
我现在正在使用 Alamofire 来发出发布请求。我首先在 ViewController 中构建它并开始工作。但后来我试图通过在另一个 class 中构建它来分离它。我使用 singleton 并且

首页

博学

6Ren·AI

商城

regex - 如何将 POS 与单词分开