gpt4 book ai didi

java - NLP 从给定文本中发现城市、州和名称

转载 作者:行者123 更新时间:2023-12-02 06:21:56 24 4
gpt4 key购买 nike

我有一个使用 OCR(光学字符识别)从图像生成的文本文件。该文件包含信息记录,其中每条记录的一部分包含客户名称城市和州格式的文本。文本示例如下

乔治亚州本杰明·米克斯·迪凯特

有时文本可能会分成多行。文本将始终按给定的顺序排列。我有一个城市和州的静态列表,但仍然有一些记录和州可以从列表中出来。州和城市之间的逗号可能存在​​也可能不存在。城市和州文本主要包含美国、英国、加拿大、澳大利亚等。

从我的一位 friend 那里,我了解到自然语言处理可以解决从给定输入中挖掘文本类别的问题。我是 NLP 新手,所以我来这里寻求建议,我可以应用哪些 NLP 技术来提取城市、州和名称。

我在 google 上搜索了一个 openNLP 库,看起来 apache openNLP 似乎是一个不错的库。

谢谢。

最佳答案

如果你想开始使用 NLP,我认为 OpenNLP 是一个不错的选择,另一个 Java 选项可能是 StandfordNLP。如果您熟悉 Python,那么请使用 NLTK。

关于你的问题,我认为命名实体识别是你应该寻找的。如果您首先学习 NLP 的基础知识,然后使用这种特定的“技术”,那就更好了。然而here您已经可以找到有关此内容的 OpenNLP 章节;正如您所看到的,您还可以使用机器学习技术来训练您的“代码”,以便准确识别您想要的内容。
对于 OpenNLP,已经存在一些针对位置、组织、人员等的训练模型。 (here)

关于java - NLP 从给定文本中发现城市、州和名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20931154/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com