gpt4 book ai didi

full-text-search - Google Sites API 全文搜索不适用于非西方语言

转载 作者:行者123 更新时间:2023-12-03 05:31:16 25 4
gpt4 key购买 nike

在我的 JavaEE 应用程序中,我使用基于 Atom 的 Google Sites API从非公开的 Google 网站检索内容。本质上,我们将 Google 网站用作轻量级 CMS,并在应用程序中使用 API 检索网站内容以提供给我的在线帮助系统。我已经使用此设置有一段时间了,并且运行顺利。

问题

在我的应用程序中,我需要向在线帮助系统添加全文搜索功能。我知道这个功能请求会在某个时候出现,因此在决定使用 Google 协作平台来托管我的内容时,我检查了协作平台 API 是否支持全文搜索。 It does 。例如,以下 URL 将在整个网站 my-site 中搜索包含关键字 user 的页面。

https://sites.google.com/feeds/content/my.doma.in/my-site?q=user

这有效,并为我提供了预期的结果页面。但它仅适用于用西方语言编写的内容,或者更具体地说,是用空格和标点符号分隔标记/单词的语言。当我对日语内容进行类似搜索时,搜索关键字 ユーザー:

https://sites.google.com/feeds/content/my.doma.in/my-site?q=%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC

我只会得到搜索词显示为裸字符串的结果页面,即由空格或标点符号分隔。由于日语是一种用 scriptio continua 编写的语言,这还不够。页面包含,例如:

ご自身のユーザー基本情報の確認

不会出现在结果中。因此,幕后使用的搜索索引似乎是根据“西方”词汇规则创建的,并且日语内容未正确标记。但是,当我从 Google 网站的搜索此网站字段搜索相同的关键字时,我确实得到了正确的结果。我的结论是存在正确的标记化索引,但似乎不可能将其用于基于 API 的搜索

到目前为止我尝试过的内容

为了解决这种情况,我迄今为止探索过以下途径:

  • 我尝试在 Google 协作平台本身中查找语言设置。通用 UI 语言设置已设置为日语,对 API 查询结果没有影响。没有每页或每模板的语言设置来强制索引器/标记器的手。
  • 我尝试用双引号引用搜索字符串 ("ユーザー")。
  • 我尝试过包含通配符 (*ユーザー*)。
  • 我尝试在网址中使用其他 Google API 中常见的其他语言参数:langhl(界面语言)、rl(结果语言),..
  • 我尝试过创建 Google Custom Search Engine ,但似乎不可能让它在非公开的 Google 网站上运行。

所以...

我很快就没有想法了。在最坏的情况下,我最终将不得不自己检索、标记和索引所有内容并使其可搜索。由于这需要大量的努力,我想知道是否有人遇到过同样的问题并找到了可接受的解决方法或解决方案。

<小时/>

更新 1

我尚未找到解决此问题的完美解决方案,因此我在 Google Apps API 问题跟踪器上提出了一个缺陷:https://code.google.com/a/google.com/p/apps-api-issues/issues/detail?id=3780

更新2

经过一番反复讨论,Google 工程师承认问题确实存在,如所描述的那样,并已“在内部提交了问题”。此后,缺陷单一直处于分类状态。如果您和我一样有兴趣看到这个问题得到解决,请花点时间在 Google's issue tracker 上为其加注星标/投票。 .

最佳答案

我知道当您的应用程序无法满足定义的最后期限时等待某人支持处理 API 错误时的感觉。您描述的问题听起来确实像一个错误,因此对于“干净”的解决方案,您必须等到 Google 协作平台团队的人员解决此错误(我已经投了赞成票:)),然后您就可以简单地使用搜索 API。

但是,与此同时,我认为您应该尝试一些解决方法。我可能会建议您一个不同的解决方案,它不能 100% 满足您的需求,但可能有用。例如,配置您的网站以将聚合数据提要公开给具有丰富搜索 API 的提要处理器 - 它可能是一个 RSS 提要,其中包含 Feedly 烧毁的 Google 网站中的所有文章。它具有良好的多语言搜索 API 支持 ( Search the content of a stream ) 以及强大的身份验证来保护您的数据隐私。

作为一名架构师,我知道这不是问题的正确解决方案,但它帮助我构建了一个完全可搜索的应用程序,使用俄语和乌克兰语语言环境聚合来自 100 多个不同数据源的数据。

祝您应用程序开发顺利,请告诉我此解决方案是否对您有帮助! :)

关于full-text-search - Google Sites API 全文搜索不适用于非西方语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26857802/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com