java - 几乎 JSON 的正则表达式，但不完全是-6ren

java - 几乎 JSON 的正则表达式，但不完全是

转载作者：行者123 更新时间：2023-12-04 05:12:37

25

4

大家好，我正在尝试将一个格式良好的字符串解析为它的组成部分。该字符串非常类似于 JSON，但严格来说它不是 JSON。它们是这样形成的:

createdAt=Fri Aug 24 09:48:51 EDT 2012, id=238996293417062401, text='Test Test', source="Region", entities=[foo, bar], user={name=test, locations=[loc1,loc2], locations={comp1, comp2}}

输出就像文本块一样，此时不需要做任何特别的事情。

createdAt=Fri Aug 24 09:48:51 EDT 2012 
id=238996293417062401 
text='Test Test' 
source="Region"
entities=[foo, bar] 
user={name=test, locations=[loc1,loc2], locations={comp1, comp2}}

使用以下表达式，我可以分离出大部分字段

,(?=(?:[^\"]*\"[^\"]*\")*(?![^\"]*\"))(?=(?:[^']*'[^']*')*(?![^']*'))

这将在所有逗号上拆分而不是在任何类型的引号中，但我似乎无法跳到它在逗号上拆分而不是在括号或大括号中的位置。

最佳答案

因为您想处理嵌套的括号/括号，处理它们的“正确”方法是分别标记它们，并跟踪您的嵌套级别。因此，您确实需要为不同的 token 类型使用多个正则表达式，而不是单个正则表达式。

这是 Python，但转换为 Java 应该不会太难。

# just comma
sep_re = re.compile(r',')

# open paren or open bracket
inc_re = re.compile(r'[[(]')

# close paren or close bracket
dec_re = re.compile(r'[)\]]')

# string literal
# (I was lazy with the escaping. Add other escape sequences, or find an
# "official" regex to use.)
chunk_re = re.compile(r'''"(?:[^"\\]|\\")*"|'(?:[^'\\]|\\')*[']''')

# This class could've been just a generator function, but I couldn;'t
# find a way to manage the state in the match function that wasn't
# awkward.
class tokenizer:
  def __init__(self):
    self.pos = 0

  def _match(self, regex, s):
    m = regex.match(s, self.pos)
    if m:
      self.pos += len(m.group(0))
      self.token = m.group(0)
    else:
      self.token = ''
    return self.token

  def tokenize(self, s):
    field = '' # the field we're working on
    depth = 0  # how many parens/brackets deep we are
    while self.pos < len(s):
      if not depth and self._match(sep_re, s):
        # In Java, change the "yields" to append to a List, and you'll
        # have something roughly equivalent (but non-lazy).
        yield field
        field = ''
      else:
        if self._match(inc_re, s):
          depth += 1
        elif self._match(dec_re, s):
          depth -= 1
        elif self._match(chunk_re, s):
          pass
        else:
          # everything else we just consume one character at a time
          self.token = s[self.pos]
          self.pos += 1
        field += self.token
    yield field

用法:

>>> list(tokenizer().tokenize('foo=(3,(5+7),8),bar="hello,world",baz'))
['foo=(3,(5+7),8)', 'bar="hello,world"', 'baz']

这个实现需要一些捷径:

字符串转义真的很懒:它只支持\"在双引号字符串和 \' 中在单引号字符串中。这很容易修复。

它只跟踪嵌套级别。它不验证括号是否与括号匹配(而不是括号)。如果您在乎可以更改 depth进入某种堆栈并将括号/括号插入/弹出。

关于java - 几乎 JSON 的正则表达式，但不完全是，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14714584/

25

4

0

文章推荐： ServiceStack SwaggerUI 路由位置

文章推荐： react-native - React Native Undefined 不是对象 - 地理定位

文章推荐： Asp.Net Identity - 在运行时设置 CookieDomain

c - (几乎)用于开关的非冲突简单哈希函数
我正在用 C 写一个高级计算器。正如你所猜到的，它目前有很多函数，我使用一个开关来对每个函数名进行适当的操作。它是这样的: switch(hash_of(function_name_currently
c# - (几乎)所有垃圾收集都是完全收集
在大约四天的时间里，我一直在收集托管应用程序的性能计数器。在此期间，发生了以下垃圾回收: 第 0 代:133,695 第一代:133,413 第 2 代:133,254 其中一些是使用GC.Colle
Mysql - 跨表排除有效..几乎
我构建了这个: [ Workshop_templates 表 ] id_template | Workshop_name 1 | Conflict resolution 2 | Building tr
python - (几乎)从列表中均匀选择项目
我有一个 N 的列表元素，我想抽样 M ( N/2 . IE。当超过一半的值被采样时。但它非常适合 M N/2 时反转问题。 : 注意:这实际上是创建一个大小为 N 的屏蔽列表对于 M 是 Fals
c - 显示相同输入的不同输出(几乎)
伙计们，我是竞争性编程的新手，我遇到了一个小问题在提供输入的同时在问题中，顶点数从 1 到 n但是我编写程序时考虑到节点是从 0 开始的但是当我通过从每个边的每个顶点减少 1 来输入测试用例时，我的
sql - 如何以特定顺序选择(几乎)唯一值
在一次旅行中，有多个停靠点，(一个停靠点 = 一个或多个订单加载或交付的地址)，按特定顺序排列。例如: Trip A Trip_order Action Place Ord
architecture - 出于项目推荐目的在微服务之间共享(几乎)相同的数据是否是个坏主意
我有一个关于由微服务组成的应用程序架构的问题。我的微服务很少，但在这个问题的上下文中有趣的是: 人力资源 - 这里存储了所有用户数据，如用户名、性别、用户体验等。工作机会 - 这里存储了每个招聘广
r - 存储(几乎)列表中工作区中的所有对象
假设我的工作空间(全局环境)中有许多对象，并且我想将大多数对象存储在列表中。这是一个简化的示例: # Put some objects in the workspace A <- 1 B <- 2 C
Firebase 服务器时间戳与本地(几乎)相同
当我获得与本地时间相同的时间戳时，firebase 生成的服务器时间戳是否会自动转换为本地时间，或者我错过了什么？ _firestore.collection("9213903123").docume
javascript - 如何将未知整数划分为给定数量的(几乎)偶数
我需要帮助才能将未知整数分成给定数量的偶数部分——或者至少尽可能地均匀。各部分之和应为原值，但各部分应为整数，且应尽可能接近。参数 num: Integer - 应该被分成相等部分的数字 parts
Java JScrollPane 滚动到底部......几乎
我的 Java 程序中有一个带有 JPanel 的 ScrollPane，它附加了大量文本。我需要 ScrollPane 在每次添加后滚动到最底部。我对以下代码的问题是它“几乎”滚动到底部但不是一直滚
python - 如何测试两个稀疏数组是否(几乎)相等？
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组，你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
javascript - 合并多个(几乎)重复的每个语句
我有以下一组几乎相同的 each 语句。我需要添加大约 20 个遵循类似模式的内容。我正在尝试找出如何获取小变量并将它们更新为单个语句(而不是 20 次相同但略有不同的内容)。 $.each(main
python - 获取两个字典中(几乎)匹配的键的值并将它们连接起来
所以我想获取两个字典中(几乎)匹配的键的值并将它们连接起来。我尝试过: dict3 = {key:dict1[key].strip() for key in dict2.keys() if key.p
mysql - 选择(几乎)重复的行
我的表看起来像这样: | id (int) | sentence (varchar) | 我想找到除了一个特定单词之外几乎相同的所有行。例如: | 230 | test | | 321 | test
c# - 如何正确封装对具有(几乎)相同模式的不同数据库系统的访问？
起始情况:MS SQL 中有一个现有的数据库模式，它与 MySQL 中的现有模式完全相同(数据库优先 - 无法更改，因为已广泛安装)。但是，它们在用于相应列的数据类型方面可能略有不同。该数据库系统必须
javascript - (几乎)总是在闭包中定义 Polymer？
对于复杂的元素，一个很好的做法是(几乎)总是在闭包中定义 Polymer 以保持所有只应在内部修改的变量和方法私有(private)，而不是将它们附加到元素(例如 'this ')? 喜欢以下内容:
java - (几乎)相同的代码在一个地方产生未经检查的分配，而在另一个地方则不会
我正在解析 Java 中的 RestAssured 调用，该调用返回对象列表。如果我使用此代码，Idea 会生成未经检查的分配警告: List availableInventories = ListP
css - 文本在(几乎)相同操作系统的相同浏览器中的位置不同
我真的被难住了。我所拥有的是一个样式化为矩形的 div，其中包含作为页面主要标题的文本。相关代码如下: HTML: SIN CSS: h1 { text-align:right
javascript - 选择(几乎)元素旁边的文本
我需要将单选按钮及其旁边的文本包装在标签中，只是为了更加用户友好。几天前我遇到了类似的问题，我有一个复选框，并且在我有一个 span 元素之后立即出现。我可以包装这两个元素。我有这个 HTML:

首页

博学

6Ren·AI

商城

java - 几乎 JSON 的正则表达式，但不完全是