gpt4 book ai didi

python - 具有挑战性的缩写正则表达式

转载 作者:太空宇宙 更新时间:2023-11-04 04:57:20 25 4
gpt4 key购买 nike

对于我正在进行的项目,我想在文本中第一次引入缩写时识别它们。

例如:

He was working for the Danish National Bank (DNB).

(...)

The DNB was a great employer.

应匹配 DNB 作为丹麦国家银行的缩写。但并非所有缩写都是大写:

In 2012 the Law equal treatment of Circus Workers (after this: LetCW) was introduced.

应该返回提取 LetCW。最好的方法是什么?我目前正在考虑删除“在此之后”,然后在括号前使用与可疑缩写中的字母相同数量的单词。

编辑:另一个有趣的例子是单个单词的缩写,即:

Abbreviation (Abbr)

Abbreviation (Abvn)

最佳答案

这是一个 NLP 问题,但它并不像正则表达式问题那样给我留下深刻印象——这似乎不是最合适的工具。

您似乎想要解析 token 流并识别可能是缩写的有前途的 token 。例如,它们可以用括号分隔或逗号分隔。令人讨厌的是,一旦停用词(“the”、“i.e.”、“after this”)被删除,它们可能会立即出现在定义短语之前或之后。一种用于识别潜在缩写的启发式方法是区分大小写的匹配项,显示非英语词典中的成员。

确定了一个潜在的缩写记号后,您需要扫描它的紧邻词,看看是否可以用附近的词来解释它,最好只使用它们的首字母。对于真正具有挑战性的数据集,您可以尝试解释 DARPA backronyms。

要从不同的方向着手,您可以尝试应用 word2vec。此处为 phrase2vec,挑战在于可扩展地识别与潜在缩写标记的余弦距离非常非常小的多词短语。

关于python - 具有挑战性的缩写正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46751206/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com