gpt4 book ai didi

java - 解析出维基百科的IPAc

转载 作者:行者123 更新时间:2023-12-01 15:23:58 24 4
gpt4 key购买 nike

我想从维基百科标记中解析出 IPAc 模板的内容,例如:

'''Konjac''' ({{IPAc-en|lang|pron|ˈ|k|oʊ|n|j|æ|k}})

魔芋(英语发音:/ˈkoʊnjæk/)

'''Konjac''' ({{IPAc-en|lang|pron|ˈ|k|oʊ|n|j|æ|k}} {{respell|KOHN|yak}})

魔芋(英语发音:/ˈkoʊnjæk/kohn-yak)

''Konjac'' is pronounced {{IPAc-en|ˈ|k|oʊ|n|j|æ|k}} in English.

Konjac 在英语中发音为/ˈkoʊnjæk/。

我需要什么正则表达式来提取此内容|k|oʊ|n|j|æ|k我不知道如何匹配可能存在但可能不存在的内容(lang|pron)

谢谢

最佳答案

我会尝试一下:

IPAc-en(?:\w|[|])+.(?:[|]|([^}]))+(?:}}\s*{{respell(?:[|]|([^}]))+)?

它应该与主要发音以及可选的“重新拼写”相匹配。

两个发音的匹配将位于捕获组中,因此您应该能够从 java 访问它。

说明:

  • IPAc-en(?:\w|[|])+. - 尽可能多次匹配开头和单词字符或管道。匹配另一个字符(这是发音开始的有趣的字符)。不要捕获任何东西。

  • (?:[|]|([^}]))+ - 匹配管道(不捕获)或任何其他不是右大括号的内容(捕获 -这就是您想要的字符)。重复直到字符串末尾或直到找到 }

  • (?:}}\s*{{respell(?:[|]|([^}]))+)? - 然后可以选择匹配括号并重新拼写文本并使用与上面相同的逻辑来捕获字母。

关于java - 解析出维基百科的IPAc,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10454092/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com