gpt4 book ai didi

python - 我应该为命名实体识别提取域词吗?

转载 作者:行者123 更新时间:2023-11-30 22:29:50 25 4
gpt4 key购买 nike

我的问题也许不完全是编程,但我知道许多有才华的程序员正在研究 NLP,并且也许能够回答我的问题。

我已经编译了一个包含域单词的文档,我对其执行模糊匹配以提取文本中的命名实体。格式如下:

  "ferry names": [
{
"stena danica": [
"stena danica",
"danica"
]
},

外部对象是类别,内部是实体。最里面的列表是可以调用该实体的同义词列表。现在,我的命名实体识别虽然简单,但效果很好。不过,为了使其更容易,我决定对传入的文本中的所有单词进行词干处理。

{
"category": "ferry names",
"distance": 1,
"entity": "stena danica",
"interpreted": "stena danica",
"raw": "stena danica",
"stemmed": "stena danic"
}

词干分析器(nltk 雪球词干分析器、SwedishStemmer)工作出色,但它也可以提取域词的词干,在本例中为 Stena Danica

问题:我不确定如何解决这个问题,我应该对域单词进行词干处理,还是将词干处理后的版本与同义词放在一起?事实上,它仍然会被模糊匹配器拾取,但它可能会带来问题。谢谢。

最佳答案

我可能不是最有资格回答这个问题,但在我看来,这取决于你的目标。我使用 NLTK 对文本进行词干提取,以减少总词汇量(创建文档向量并根据内容比较文档)。我还对命名实体进行词干处理,以便例如 "Al Bundy""Al Bundys" 可以被识别为同一事物。但我发现将 NE 的词干版本添加到同义词中存在风险。考虑以下示例:

"ferry names": [
{
"stena line": [
"stena line",
"stena",
"sten" # Supposed to represent a stemmed version of Stena
]
},

如果您输入 "sten""stenar""stenarna" 或任何其他可能出现的单词源于“sten” - 你会遇到问题。它将被识别为“Stena Line”。希望有帮助。 :)

关于python - 我应该为命名实体识别提取域词吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46238716/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com