java - 正则表达式 : Splitting String into Fixed Length w/o Breaking Words AND Including Specials-6ren

java - 正则表达式 : Splitting String into Fixed Length w/o Breaking Words AND Including Specials

转载作者：塔克拉玛干更新时间：2023-11-02 19:43:48

26

4

我有以下正则表达式...

\S.{1,40}\b\W?

这会将一个字符串分解成长度不超过 40 个字符的更小的字符串，并且不会分解单词(包括标点符号)。但是，如果它在字符串的末尾结束(长度少于 40 个字符)，它不会单独处理特殊字符，例如 #。我假设是因为正则表达式不将其视为一个词？

举个例子...

abcd (efghij # / klmno (# #)

结果会是……

abcd (efghij # / klmno

结果应与输入相同(包括末尾的 (# #))。

也拿这个例子...

abcd (efghij # / klmno (# #)
blah blah etc etc words and more words and yet more words. What about these words?
And some more text for this string so that we can test things out.

在这种情况下，结果应该是...

abcd (efghij # / klmno (# #)
blah blah etc etc words and more words 
and yet more words. What about these 
words?
And some more text for this string so 
that we can test things out.

然而，再次使用我当前的正则表达式，结果是......

abcd (efghij # / klmno 
blah blah etc etc words and more words 
and yet more words. What about these 
words?
And some more text for this string so 
that we can test things out.

请注意缺少 (# #)。我需要将此 (# #) 包含在第一个结果中。

请注意，我使用 Pattern 和 Matcher 类在 Java 中使用这个正则表达式。

有什么建议吗？

最佳答案

我的猜测是你可能想要预处理或后处理你的 first-like 句子，否则表达式会变得相当复杂，那么下面的表达式可能会有点接近:

.{0,39}\S(?=$|\s)

表达式在 regex101.com 的右上面板中进行了解释, 如果你想探索/简化/修改它，在this link ，如果愿意，您可以观察它如何与一些样本输入相匹配。

Demo 2

关于java - 正则表达式 : Splitting String into Fixed Length w/o Breaking Words AND Including Specials，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57194185/

26

4

0

文章推荐： java - Spring Boot Multi-Module maven项目重新打包失败

文章推荐： java - 我可以将 JSON-LD 转换为 Java 对象吗？

解读邮箱正则表达式：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
验证邮箱的正则表达式 var ePattern = /^([A-Za-z0-9_\-\.])+\@([A-Za-z0-9_\-\.])+\.([A-Za-z]{2,4})$/; 或者
java - 使用正则表达式拆分字符串\w\w*?\w+?
我正在学习正则表达式并认为我开始掌握了。但是…… 我试图拆分一个字符串，我需要帮助来理解这样一个简单的事情: String input = "abcde"; System.out.println("[
c++ - 'W' 打印出 W， "W"打印出 $。为什么？
我是初学者。我不知道为什么？我正在使用 Code::Blocks。请阅读以下代码: 如果 q=' W '，则打印出 W。如果 q=" W "，则打印出 $。最佳答案文字 "W" 不是单个 cha
regex - REGEXP_EXTRACT(word,r'(\w\w\'\w\w)' ) 中的 r 是什么意思
我在 BigQuery Reference 或 re2 wiki 中都找不到答案。在 BigQuery Reference 中 Regex 部分的所有示例中，每个 regex 之前都有一个“r”，但
java - 当 "X px"仅被按下一次时使 block /角色移动 "W or w"，并且当 "W and w"被按住时不继续行走
当我按“W 或 w”但仅一次时，我想让我的矩形/字符移动“X px”。按住“W”和“w”时不继续移动。我尝试使用一个变量创建一个“Key Released”函数，该变量在按下“W 或 w”时会发生变化
ruby - Ruby 中的 %w{} 和 %W{} 大写和小写百分比 W 数组文字有什么区别？
%w[ ] Non-interpolated Array of words, separated by whitespace %W[ ] Interpolated Array of words
Vim 'w' 表现得像 'W'
我使用 vim。在我曾经使用过的每台机器上，“w”都尊重标点符号。如果我按“w”，我会前进到一个词的结尾。如果是句点分隔词，我将移至下一个句点。然而，在特定的 vim 安装中，'w' 被解释为 '
正则表达式差异 : (\w+)? 和 (\w*)
(\w+)?有什么区别吗和 (\w*)在正则表达式中？似乎是一样的，不是吗？最佳答案 (\w+)?和 (\w*)两者匹配相同(0..+inf 单词字符) 但是，有一点不同: 在第一种情况下，如果正
ruby %w(...) 与 %w[...]
在 Ruby 中 %w(don matt james) 和 %w[don matt james] 有区别吗？使用 Ruby 控制台，它们都输出一个数组，每个单词作为一个元素。我很好奇为什么有多种方法
context-free-grammar - 是 { w | w <> w^R } 在字母表 {0,1} 上是一种上下文无关的语言？
我真的很想帮助您决定字母表中所有单词的语言是否{0,1}不能从两边以同样的方式读取，{ w | w <> wR } , 是一种上下文无关语言(即可以转化为特定的语法规则)。我试图通过抽水引理证明它不
xml - 如何使用 xslt 2.0 检查所有具有我当前节点的 w:r/w:t 子节点的后代::w:p？
这是我的 Xml 文档(小片段)。
vim - vim中有没有办法制作:W to do the same thing as :w?
:q 和 :Q 也是如此。我几乎总是不会足够快地放弃转变，看到 :Q 和 :W 无论如何都没有被使用，我认为让它们像小写字母一样做会很好。最佳答案黑客是通过 :cmap或 :cabb ，但这些都有
javascript - 正则表达式 -/\w\b\w/
我对/\w\b\w/感到困惑。我认为它应该匹配“we we”中的“e w”，因为: \w 是单词字符，即“e” \b 是单词 broundary，它是 ""(空格) \w 是另一个词是“w” 所以匹配
linux - 这两个命令之间的区别(w & w/out "")以及为什么？
在 Linux 中，我的目录中有一个名为 test2 的文件，该文件是我使用 touch 命令创建的。当我运行命令时 find . –name “*test*” -ls 它不会给我错误，但是当我运行
ruby - 尝试使用匹配器/\w/and/\W/将句子拆分为单词和分隔符
我想把一个句子分成单词和单词之间的部分(我称之为定界符)。 sentence = "First-tea,-then-coffee!" => "First-tea,-then-coffee!" word
ruby - %w 和 %W 有什么区别
我正在查看 Ruby 的文档。我对使用 %w() 还是 %W() 感到困惑(后面的 W 是大写的)。两者有什么区别？你能给我指点一些文档吗？最佳答案当大写时，数组由插入的字符串构成，就像在双引号字
ruby 数组 : %w vs %W
有什么区别？最佳答案 %w 引用像单引号 ''(没有变量插值，转义序列更少)，而 %W 引用像双引号 ""。 irb(main):001:0> foo="hello" => "hello" irb(
xml - 我想替换 element with a new xml element in a Open XML document using XQuery
这是运行 XQueries 之前的 XML 文档示例: ... 1.7 ****
c++ - clang vs gcc 运行时差异 : c++ class template built w clang crashes w/o copy constructor, 内置 w gcc 使用复制构造函数崩溃
除非我为 TableTypeCarrier 模板类包含一个复制构造函数，否则使用 clang(但不是 gcc)构建时，以下代码会在运行时崩溃吗？如果我包含该复制构造函数，为什么我在使用 gcc 构建时
regex - 为什么正则表达式/[\w\W] + x/i运行起来会非常慢？
尝试: time perl -E '$x="a" x 100000; $x =~ /[\w\W]+x/i' 将运行很长时间(在我的笔记本上20秒)。没有/i，例如 time perl -E '$x=

首页

博学

6Ren·AI

商城

java - 正则表达式 : Splitting String into Fixed Length w/o Breaking Words AND Including Specials

Demo 2