gpt4 book ai didi

java : Intelligent text splitting

转载 作者:行者123 更新时间:2023-12-01 22:33:34 24 4
gpt4 key购买 nike

我有一些句子,例如:美利坚合众国,带环的 key ,

我希望将所有句子拆分为空格,但要明智地这样,美利坚合众国变成:“美国”“各州”“美利坚合众国”带环 key :“ key ”“带环”北京女王:“女王”“北京”

我们在 java/clojure/scala 中是否有一些用于此类拆分的库?或者任何可以帮助解决这个问题的算法。

最佳答案

据我所知,没有现成的库可以执行此操作。然而,有一个简单的方法可以实现这一目标!

首先,我们需要了解功能词,它们本身没有太多语义,但对于语法和结构关系很重要。一些功能词有“of”、“about”、“my”等。有关更多详细信息,请查阅以下资源:

  1. The Wikipedia page on Function Words
  2. Function Words (pdf slides from New York Univ.)

维基百科页面还有一个外部链接,您可以从其中下载英文功能词列表。

获得该列表后,我们可以简单地使用普通的分词器,然后将一个单词 w_k 与后面的单词 w_(k+1) 组合,如果w_k 是一个虚词。这种方法将达到以下效果:

  • “美利坚合众国”==>“美国”、“州”、“美利坚合众国”
  • “哥谭黑暗骑士”==>“黑暗”、“骑士”、“哥谭”
  • “带环的 key ”==>“ key ”,“带环”

对于更复杂的单词分组,我们需要超越“拆分”,并冒险进入浅层解析领域。在这种情况下,短语分块尤其有用。例如,考虑一下美利坚合众国的首都,如上所述的分词将产生“首都”、“联合”、“州”、“美国”......这可能是不理想。另一方面,短语分块会产生

[Capital]  [of]  [the United States]  [of]  [America]

现在,我们可以将介词(如果需要)连接到后续短语中以获得

[Capital] [of the United States] [of America]

大学的认知计算小组提供了一个很好的短语组 block 程序。伊利诺伊州厄巴纳-香槟分校,包括 online demo .

关于java : Intelligent text splitting,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27211974/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com