gpt4 book ai didi

Java:从列表中解析文本中的单词(首字母缩略词、缩写词等)

转载 作者:行者123 更新时间:2023-12-02 00:50:23 24 4
gpt4 key购买 nike

给定:

  • 文本(可选,带有 HTML 标签)
  • 包含缩写词和首字母缩写词的数据库表(例如“etc.”、“s.o.”等)

目标:

  • 构建一个解析器,查找给定文本中所有出现的情况
  • 构建一个小型 GUI,让用户选择找到的匹配项是否匹配(这将根据需求进行调整)
  • 用户可以选择忽略匹配(还必须标记为“被忽略”)
  • 用特殊的 XML 结构替换任何接受的事件

我的主要问题是解析器,我提到 GUI 只是为了提供完整的概述。

任务是构建一个解析器来分析文本,例如:首字母缩略词并对其进行标记以供以后进行后处理。任何“标记”都必须采用 XML 标签的形式,因为周围环境不接受任何其他内容(我们位于以“Spirit”结尾的 CMS 的 DOM 编辑器中;))。

有人对图书馆有任何建议吗?或者有人 build 过类似的东西吗?您如何或将如何处理以下事情:

  • 两个或多个单词是一个实体
  • fullstop - 您要查找的句子的一部分或标记的一部分
  • 迭代替换 - 用户接受第一次出现 - 即时替换还是缓冲?

任何想法、库提示、维基百科文章等等 - 都是有帮助的。我没有找到任何相关问题可以回答上述所有方面。

最佳答案

我读过很多关于 apache lucene 的好东西如果我有类似的项目,我会首先看看这个。它可以索引源文档并帮助查找所有出现的首字母缩略词(这就是您想要的“解析”步骤的结果,如果我没猜错的话)。

关于Java:从列表中解析文本中的单词(首字母缩略词、缩写词等),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3465279/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com