gpt4 book ai didi

python - 使用 NLP 进行地址拆分

转载 作者:行者123 更新时间:2023-12-04 12:29:41 33 4
gpt4 key购买 nike

我目前正在开展一个项目,该项目应识别地址的每个部分,例如来自“str. Jack London 121, Corvallis, ARAD, ap. 1603, 973130”,输出应如下所示:

street name: Jack London; 
no: 121; city: Corvallis;
state: ARAD;
apartment: 1603;
zip code: 973130
问题在于并非所有输入数据的格式都相同,因此某些元素可能会丢失或顺序不同,但保证是地址。
我在互联网上检查了一些资源,但其中很多只适用于美国地址 - 就像 Google API Places,问题是我会将它用于另一个国家。
正则表达式不是一种选择,因为地址可能变化太大。
我还考虑过 NLP 使用命名实体识别模型,但我不确定这是否可行。
你知道什么是一个很好的开始方式,也许可以帮我一些提示吗?

最佳答案

有一个similar question在 Data Science Stack Exchange 论坛中,只有一个答案建议使用 SpaCy。
关于 detecting addresses using Stanford NLP 的另一个问题详细介绍了另一种检测地址及其组成部分的方法。
有一个LexNLP具有以这种方式检测和拆分地址的功能的库(从库中的 TowardsDatascience article 借来的片段):

from lexnlp.extract.en.addresses import address_features
for filename,text in d.items():
print(list(lexnlp.extract.en.addresses.address_features.get_word_features(text)))
还有一个比较新的(2018)和“研究”代码 DeepParse (和 documentation )用于伴随 IEEE article 的深度学习地址解析(付费专区)或 Semantic Scholar .
对于培训,您将需要使用一些大型地址语料库或使用生成的假地址,例如 Faker图书馆。

关于python - 使用 NLP 进行地址拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66778944/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com