gpt4 book ai didi

linux - 如何匹配文本中的关键字/短语?

转载 作者:太空宇宙 更新时间:2023-11-04 10:41:08 27 4
gpt4 key购买 nike

我有...

  • 一组固定关键字和词组(大约 1,000,000 个),例如 birthdayhappy new yearvacation
  • 10 到 500 字之间的一些可变文本。

我想……

  • 识别文本中出现的那些关键字/短语(例如,Hi John, happy birthday to you. matches birthday),最好包含一些关于数量的信息平等匹配
  • 容忍语法变化(vacations 应匹配 vacationcountries 应匹配 country)或“拼写错误”( nodejs == node.js).

本质上类似于 Google 的搜索功能(但他们可能使用更复杂的方法)或 Stackoverflow 的标签匹配/搜索答案。

基本上用户输入一些文本,我的程序应该尽最大努力建议相关关键字。

在我的例子中,该算法主要需要对英文文本进行操作,但也应该适用于其他语言,如德语、意大利语、法语、西类牙语......

是否存在可以执行此操作的某些 Linux/NodeJS 库?或者至少是一个众所周知的算法?

最佳答案

对于第一个问题,您可以简单地阅读整个集合或逐行阅读,然后针对您需要搜索的每个单词创建一个 String.match()。

第二个有点棘手,你不需要完全匹配但你需要计算2个字符串的相似度。有很多算法可以衡量两个字符串的相似度。例如看看 Levenshtein distance .

有一个很好的库可以在 node.js 中实现以上所有内容 https://github.com/NaturalNode/natural它可以标记文本,搜索完全相同或相似的词,它还实现了 tf-idf这是搜索引擎工作的更简单方式!

关于linux - 如何匹配文本中的关键字/短语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35135334/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com