gpt4 book ai didi

java - UMBC 语义相似性实现

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:17:09 27 4
gpt4 key购买 nike

我正在使用由 UMBC 提供的语义相似性 Web API。在我的 java 程序中,我发送了一个 HTTP 请求 http://swoogle.umbc.edu/SimService/GetSimilarityoperation=api&phrase1=XXXX&phrase2=XXXX然后我解析输出以获得结果。

我遇到的问题是我正在处理大规模数据。这需要很长时间,我必须做很多次。我想知道是否有更快的方法在 java 中查询 Web API?或者,是否有此工具的可实现版本?非 NLP 专家实现它有多容易?

最佳答案

听起来您想快速处理许多短语对,而此处提供的 API 不可用。

避免网络痛苦的选择是:

  1. 使用可批量使用的备用 API。如果有一个调用接受多对短语并同时输出许多相似度分数,这将使您的速度更快 - 但只要因为他们的 API 包含 (lhs, rhs) -> score 的函数调用,所以您将受到调用该函数的速度的限制。

有一个 related question那是因为离题而被关闭,但提到了cortical.io作为提供“批量”比较的 API。

  1. 索取源代码以自行运行。联系托管 API 的组织并询问他们是否可以提供源代码(公开或仅供您使用)。
  2. 自己实现他们的方法或类似方法。

为了帮助完成 3.,我在下面提供了一些资源。

浏览他们的 website , 和 group's publication page , 我发现这篇文章可能很有趣。

Abhay L. Kashyap 等人,"Robust Semantic Text Similarity Using LSA, Machine Learning and Linguistic Resources" , Language Resources and Evaluation,2016 年 1 月,73 次下载。

对于更容易实现且至少在性能上具有竞争力的东西,我建议查看相似度的词 vector 方法,例如 Stanford's GloVeGoogle's word2vec (您可能需要重新训练才能获得所需大小的短语,或者您可以通过平均或添加 vector 来表示短语来玩花样)。

关于java - UMBC 语义相似性实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33784448/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com