gpt4 book ai didi

java - 多语言查询中的正则表达式不适用于应用程序,但适用于 SQL 开发人员和单元测试

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:14:40 26 4
gpt4 key购买 nike

对于以下包含正则表达式的查询,我有一个奇怪的行为:

SELECT COALESCE(lang.TITLE, ids.message_id) AS TEXT,
ids.message_id
FROM
(SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages
) ids,
LOCAL_TITLES lang
WHERE ids.message_id = '' || lang.NUMBER_NO(+);

LOCAL_TITLES 包含以下条目:

  • 5310031 |一些本地化的文本
  • 9184 |另一个文本

所以预期的查询结果应该是:

  • 28647854 | 28647854
  • 一些本地化的文本 | 5310031
  • 另一个文本 | 9184

当查询通过 SQL Developer 运行时,这很有效。我还有一个针对我的 DAO 的(单元-/集成-)测试,它运行此查询返回预期结果。

我的问题:当正在运行的网络应用程序执行查询时,正则表达式找不到数字 ID。相反,实际查询结果

  • GB 28647854-04 |国标28647854-04
  • GB 5310031-05 | GB 5310031-05
  • 另一个文本 | 9184

当正则表达式来自 Web 应用程序时,您是否知道为什么正则表达式的行为不同?

最佳答案

您的正则表达式正在寻找具有 [a-z] 模式的小写字符。您的双生成数据具有大写 GB,因此它们与默认区分大小写的设置不匹配,至少在我的语言环境中:

alter session set nls_sort = 'BINARY';

SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages;

MESSAGE_ID
--------------
9184
GB 28647854-04
GB 5310031-05

如果您让 session 不区分大小写,他们会:

alter session set nls_sort = 'BINARY_CI';

SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages;

MESSAGE_ID
--------------
9184
28647854
5310031

您还可以在每个正则表达式调用中使其不区分大小写:

SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}', 1, 1, 0, 'i') > 0
THEN regexp_substr(messages.NR, '\d+', 1, 1, 'i')
ELSE messages.NR
END AS message_id
...

或者只是扩展字符类:

      WHEN regexp_instr(messages.NR, '[a-zA-Z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0

      WHEN regexp_instr(messages.NR, '[[:alpha:]]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0

您的某些 session 是使用 BINARY_CI(或其他一些不区分大小写的)创建的 linguistic comparison设置,但您的“网络应用程序”设置不是。这可能取决于每个人使用的区域设置,因此更改应用程序区域设置也可以解决差异;但使模式更符合逻辑可能更好。

更具体地说,在您的情况下(查看了您的个人资料),如果您的语言环境是德国,那么您的 NLS_SORT 将是德语,这与 BINARY_CI 对英国语言环境的行为相同。据推测,您的 SQL Developer 和单元测试正在使用德语设置运行,而您的 Web 应用不是因为其自身的默认设置或设计。

Read more about "SQL Regular Expressions in a Multilingual Environment" in the documentation .

关于java - 多语言查询中的正则表达式不适用于应用程序,但适用于 SQL 开发人员和单元测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37810866/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com