gpt4 book ai didi

java - 使用 Java 的网页索引器

转载 作者:行者123 更新时间:2023-12-03 21:27:07 25 4
gpt4 key购买 nike

当用 Java 开发时,对于网站爬虫和 Web 索引器来说,并行系统还是分布式系统更好?有哪些可用的框架?

最佳答案

您将找到的最好的 Java 爬虫/索引器组合之一是 Nutch ,现在是一个 Apache 项目(参见 Wiki),因此是开源的。

特点:

  1. 并行和/或分布式获取、解析和索引
  2. 插件:纯文本、HTML、XML、ZIP、OpenDocument (OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、JavaScript、RSS、RTF、MP3(ID3 标签)
  3. 本体论
  4. 聚类
  5. MapReduce
  6. 分布式文件系统(通过 Hadoop)
  7. 链接图数据库
  8. NTLM 身份验证(Windows/Exchange/等)

关于java - 使用 Java 的网页索引器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3381573/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com