gpt4 book ai didi

algorithm - 对地名数据进行位置消歧的最佳方法是什么?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:49:08 25 4
gpt4 key购买 nike

对地名数据进行位置消歧的最佳方法是什么?

有一些用于 geonames 搜索的评分算法,但他们没有开源,我不确定他们是否非常复杂。 (即对于 soma, ca 它返回 加拿大的 Soma 湖,它甚至没有维基百科文章,而不是非常流行的旧金山的 Soma Neirbohood )

我在 google scholar 中也找到了一些作品,但它们看起来非常肤浅并且与我的启发式方法相似,比如按 something(log(population) + 1000*hasWikipedia(article)+ isCity100+isCapital(10) 评分)。

我在旅游文章中的领域,所以我的评分函数应该提供最可能的旅游地点(城市、名胜古迹(迪士尼乐园、学院、大本钟))。

您是否知道该领域的任何重要文章,或 Google map 、yahoo、bing 甚至 geonames 在生产中使用的算法?

最佳答案

@yura,这不是您要查找的内容,但我认为任何聪明的算法都无法始终如一地消除诸如“soma ca”之类的查询是指旧金山的 Soma 还是加拿大的 Soma 湖的歧义.问题不在于你的算法不够复杂;问题是在查询“soma ca”中没有足够的信息。

我不知道如何表达清楚,但这里发生了信息论的事情。这就像无法无损压缩随机数据的方式:输入中没有足够的信息来计算所需的输出。

即使有人手动解释您的查询,他们也不一定理解“soma ca”在 SF 中应该是指 Soma。也许对你来说,像“ca”这样的两个字母的缩写“自然地”指的是美国的一个州而不是外国,但这个选择从根本上没有什么“正确”的,而且它不能用纯逻辑推导出来。这是一个任意的、特定于域的临时规则,就像您提到的临时 log(population) 启发式一样。

一些可能的“解决方案”(除了设计一台可以读懂用户思想的心灵感应计算机):

  1. 为用户提供每个查询的可能匹配列表。跟踪他们选择的查询,当其他用户稍后输入相同的查询时,按受欢迎程度对结果进行排序。
  2. 或者,一旦您收集了大量关于查询结果受欢迎程度的数据,您甚至可以使用机器学习算法挖掘数据,并从中获得更好的启发式方法。
  3. 或者,在将应用程序投入生产使用之前,您可以先编译一组虚假查询,以及您认为您的算法应该为每个此类查询产生的结果。然后在其上使用您的机器学习算法。
  4. 编译大量虚假查询和期望的响应,或者从真实用户的选择中获取数据,并使用该数据来衡量您手动设计和编码的排名启发式算法的准确性。不断发明新的启发式方法,直到找到一种可以在您的测试数据集上实现高精度的方法。

关于algorithm - 对地名数据进行位置消歧的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9405695/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com