gpt4 book ai didi

machine-learning - 如何检查输入字符串是否包含街道地址?

转载 作者:行者123 更新时间:2023-11-30 08:54:36 24 4
gpt4 key购买 nike

我们想要识别文档中的地址字段。为了识别地址字段,我们使用 Tesseract 将文档转换为 OCR 文件。从超立方体输出中,我们想要检查字符串是否包含地址字段。解决这个问题的正确策略是什么?

  1. 无法使用正则表达式解决此问题,因为不同文档和国家/地区的地址字段不同
  2. 尝试过 NLTK 对单词进行分类,但对于地址字段效果不佳。

所需输出

I am staying at 234 23 Philadelphia - Contains address files <234 23 Philadelphia>

I am looking for a place to stay - Not contains address

请提供解决此问题的建议。

最佳答案

与许多机器学习问题一样,有多种可能的解决方案,重要的部分(通常影响更大)不是你使用哪种算法或模型,而是特征工程、数据预处理和标准化,以及类似的东西。我想到了第一个解决方案(这只是一个想法,我会测试它并看看它的性能):

  1. 获取您的训练集示例并列出所有示例中“N”个最常用的单词(即您的词汇表),此列表将包含“N”个最常用单词中的每一个,每个单词将由一个数字表示(列表索引)
  2. 转换您的训练示例:阅读每个训练示例并更改其表示形式,将每个单词替换为词汇表中的单词编号。
  3. 最后,为每个训练示例创建一个与词汇表大小相同的特征向量,对于词汇表中的每个单词,特征向量将为 0(对应的单词在示例中不存在)或 1(存在) ,或者单词出现的次数(再次强调,这是特征工程)
  4. 训练多个分类器、改变算法、参数、训练集大小等,并进行交叉验证以选择最佳模型。

并从那里保持标准的机器学习工作流程......

关于machine-learning - 如何检查输入字符串是否包含街道地址?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38491232/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com