gpt4 book ai didi

Java API : downloading and calculating tf-idf for a given web page

转载 作者:搜寻专家 更新时间:2023-10-31 19:49:51 25 4
gpt4 key购买 nike

我是 IR 技术的新手。

我正在寻找可执行以下操作的基于 Java 的 API 或工具。

  1. 下载给定的一组 URL
  2. 提取 token
  3. 删除停用词
  4. 执行词干提取
  5. 创建倒排索引
  6. 计算TF-IDF

请告诉我 Lucene 对我有何帮助。

问候于薇

最佳答案

你可以试试 Word Vector Tool - 自最新版本以来已经有一段时间了,但在这里工作正常。它应该能够执行您提到的所有步骤。不过,我自己从未使用过爬虫部分。

关于Java API : downloading and calculating tf-idf for a given web page,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4991075/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com