gpt4 book ai didi

cluster-analysis - 相似文本数据的概率聚类技术?

转载 作者:行者123 更新时间:2023-12-04 08:32:28 25 4
gpt4 key购买 nike

我在各种文档上有 20,000 个公司地址,它们的格式各不相同。例如:

  • A 公司12345街美国

  • CompanyA, Incbox2, 12345 街道美国华盛顿州

  • B 公司有限公司123 happy street UK

  • B 公司,有限公司123, happy street, london, S1 1AA

我希望能够合并每家公司的记录(即将上述内容分为 2 类,每家公司一个)。

我不知道该怎么做。我假设任何聚类在本质上都是概率性的,并且可能适用于更容易的匹配,但是对于不太可能/更不确定的匹配则需要人工审查。

谁能说出适合此类任务的任何技术?

非常感谢!

最佳答案

也许 automatic grammar induction是一种可以在这里产生结果的技术。您可以尝试推断文本的语法,然后使用某种比较指标对推断出的语法进行聚类。

关于cluster-analysis - 相似文本数据的概率聚类技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3488562/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com