java - 如何在wordcount hadoop中用逗号、空格、句点(.)、制表符(\t)、括号()、方括号[]和大括号({})字符分隔单词？-6ren

java - 如何在wordcount hadoop中用逗号、空格、句点(.)、制表符(\t)、括号()、方括号[]和大括号({})字符分隔单词？

转载作者：行者123 更新时间：2023-12-02 03:13:20

30

4

我正在使用 Cloudera turotial 练习 MapReduce here 。然而，目前本教程仅使用 Java 中的正则表达式按空格分割单词:

private static final Pattern WORD_BOUNDARY = Pattern.compile("\\s*\\b\\s*");

但是，除了空间"\\s*" ，我还想通过逗号、句点(.) 和制表符(\t)、圆括号()、方括号[] 和大括号({}) 字符来定义单独的单词。换句话说，我将单词定义为一个字符串，该字符串具有一个或多个字母数字字符，并由两个非字母数字字符界定。例如:

(cece54) 有一个单词“cece54”，边界为 ()
{dwd] 有一个单词“dwd”，边界为 {]
xxx) 有一个单词“xxx”，受 <space> 约束和)
诸如此类。

那么我的正则表达式应该如何编写才能满足此要求？

最佳答案

如果将单词定义为一个或多个连续的字母数字字符，则拆分为一个或多个连续的非字母数字字符，即 "\\P{Alnum}+" 或 "[^a-zA-Z0-9]+".

参见regex101例如。

您可以为第一个添加前缀 (?U) ，即 "(?U)\\P{Alnum}+"，以获得完整的国际 unicode 支持。

关于java - 如何在wordcount hadoop中用逗号、空格、句点(.)、制表符(\t)、括号()、方括号[]和大括号({})字符分隔单词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40732732/

30

4

0

文章推荐： Java单元测试: How to know its running on SemaphoreCI?

文章推荐： java - AWS Lambda : it is possible to use Oracle Java SDK?

文章推荐： java - Android Spinner - 防止刷新后关闭

文章推荐： java - 尝试实现Comparable接口(interface)

assembly 方括号
我一直想知道两者之间有什么区别 mov esi,eax 和 mov [esi],eax 曾经是。感谢任何帮助。最佳答案 mov esi,eax 将寄存器eax的内容写入寄存器esi。 mov [e
java正则表达式否定边界(方括号)
如果有人能帮助我满足 JAVA 正则表达式要求，我将不胜感激我有一个像 "/ABC/KLM[XYZ/ABC/KLM]/ABC"这样的字符串我想替换所有不用方括号括起来的ABC。在这种情况下，只应找到
Hive:regexp_replace 方括号
我需要替换 key:value 对周围的方括号，类似于以下内容。任何帮助深表感谢! “属性”中的数据如下所示: name: property1 value: [12345667:97764458] *
Logstash grok 方括号
我正在尝试使用某种 grok 模式来使用以下日志记录格式: *Sun 07:05:18.372 INFO [main] [userID] perf - 0ms - select x from y 我
r - 方括号 `[` 函数的文档
我在 R 中有一个函数，看起来有点像这样: setMethod('[', signature(x="stack"),definition=function(x,i,j,drop){ new('cl
haskell - “Strictness” 方括号
我将这些定义放在一个文件中: x = 'a' : 'b' : 'c' : [] y = ['a', 'b', 'c'] (重要的是在文件中定义它们，而不是在 GHCi 中，因为在后一种情况下，事情变得
sublimetext - 从DocBlockr注释中删除[]方括号
我喜欢将DocBlockr插件用于精美文字，但我希望自己的评论有所不同。正常出现: 以及我希望它们出现的方式: 因此，是否有这样做的type，description和[]方括号呢？我已经搜寻了一下，
javascript - 方括号 [] 内的键值对是什么意思？
让我们考虑以下是我的对象: var n = {"aa":"x","dd":'d'}; 我在 Object.assign 中使用方括号.它给出了以下结果。 [aa: "x", dd: "d"] .最终代
用于排除 [ ](方括号)内字母的正则表达式
我正在尝试使用正则表达式从 KEY PAIR VALUE 中找出 VALUE。 VALUE 可以有 [ ](方括号)。如果 VALUE 中存在 [ ](方括号)，那么我只想提取 [ ] 之外的字符。
函数调用中使用的 Javascript 方括号
这个问题在这里已经有了答案: What is array literal notation in javascript and when should you use it? (4 个答案) 关闭
方法名称周围的 Javascript 方括号
这个问题在这里已经有了答案: What do square brackets around a property name in an object literal mean? (2 个答案) 关闭
python - 如何在pyparsing中匹配括号/方括号
我有一个语法标记指定为: list_value = Suppress(oneOf("[ (")) + Group( delimitedList(string_value | int_value
PHP preg_replace 方括号
如何替换这种格式的标记: [a href="/my_page" style="font-size: 13px"]click me[/a] 到 click me 使用 preg_replace()？我
php - 只删除括号内的数字(方括号)
使用下面的代码，我可以将 Number123(45) 转换为 Number。 $string = 'Number123(45)'; $string2 = preg_replace('/[0-9]+
c++ - 方括号——与数组无关？
我知道硬括号('[' 和 ']')用于标识数组，但是在搜索如何使用事件时，我偶然发现了它们的另一种用法，并且想知道它到底意味着什么...... 我看到的代码 ( link ) 如下所示: // evh
grpc - 在gRPC方法定义之后，方括号{}的作用是什么？
This question already has an answer here: gRPC/Protobuf 3 syntax: what is the difference between rpc
emacs - 如何在Emacs中选择引号，方括号...之间的文本？
在vim中，您可以通过vi“，vi [，vi(... 例如，如果您有这样的一行: x = "difference between vim and emacs" 并且光标位于这些引号之间的任意位置，然后
angularjs - 在Jade中转义[方括号]以防止与AngularJS冲突？
AngularJS将方括号用作其指令的参数 (input[number]) 但是Jade also uses square brackets for class attributes。所以这行不通
regex - 正则表达式的字符类(方括号)中的点是否必须转义？
正则表达式中的点. 匹配任何单个字符。为了使正则表达式匹配点，必须对点进行转义:\. It has been pointed out to me方括号 [] 内的点不必转义。例如，表达式:[.]{3}
java - 正则表达式:方括号[]和竖线之间的区别|
这个问题已经有答案了: What is the difference between square brackets and parentheses in a regex? (3 个回答) 已关闭 8

首页

博学

6Ren·AI

商城

java - 如何在wordcount hadoop中用逗号、空格、句点(.)、制表符(\t)、括号()、方括号[]和大括号({})字符分隔单词？