gpt4 book ai didi

hadoop - 如何使用 hadoop Map reduce 处理/提取 .pst

转载 作者:可可西里 更新时间:2023-11-01 14:50:40 25 4
gpt4 key购买 nike

我正在使用 MAPI 工具(它的 microsoft lib 和在 .NET 中),然后使用 apache TIKA 库来处理和提取 pst交换服务器,这是不可扩展的。

我如何使用 MR 方式处理/提取 pst ... Java 中是否有任何工具和库可供我在我的 MR 作业中使用。任何帮助都会很棒。

Jpst Lib 内部使用:PstFile pstFile = new PstFile(java.io.File)

问题是对于Hadoop API,我们没有任何接近java.io.File的东西。

以下选项始终存在但效率不高:

  File tempFile = File.createTempFile("myfile", ".tmp");
fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
PstFile pstFile = new PstFile(tempFile);

最佳答案

看看巨兽 (http://digitalpebble.blogspot.com/2011/05/processing-enron-dataset-using-behemoth.html)。它结合了 Tika 和 Hadoop。

我也写过自己的 Hadoop + Tika 作业。模式是:

  1. 将所有 pst 文件打包成 sequencen 或 avro 文件。
  2. 编写一个仅映射作业,从 avro 文件中读取 pst 文件并将其写入本地磁盘。
  3. 对文件运行 tika。
  4. 将 tika 的输出写回序列文件

希望对你有帮助

关于hadoop - 如何使用 hadoop Map reduce 处理/提取 .pst,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10415213/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com