java - 无法读取文档 URL : Unable to read entire header; 6 bytes read; expected 32 bytes-6ren

java - 无法读取文档 URL : Unable to read entire header; 6 bytes read; expected 32 bytes

转载作者：行者123 更新时间：2023-12-02 09:54:36

我正在尝试使用 POI 版本 3.6 从 Web URL 读取 Word 文档。非工作代码:

String url = "http://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc";
InputStream inputStream = new URL(urlString).openStream();
HWPFDocument doc = new HWPFDocument(inputStream);
WordExtractor extractor = new WordExtractor(doc);
String text = extractor.getText();

以上代码导致 java.io.IOException: 无法读取整个 header ；读取6个字节；预计 32 字节

尝试 2:有趣的部分是下载文件(只需将 URL 粘贴到浏览器地址栏中)，然后执行类似的代码以在本地读取文档确实有效:

InputStream inputStream = new FileInputStream("C:\\Users\\me\\Downloads\\Master-DMP-Template (2).doc");
HWPFDocument doc = new HWPFDocument(inputStream);
WordExtractor extractor = new WordExtractor(doc);
System.out.println(extractor.getText());

尝试 3:现在是最奇怪的部分。我认为需要先下载该文件。所以我先使用Java下载它，然后在本地执行之前读取文档的代码。像第一种情况一样失败!

final String url = "http://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc";
String localPath  = FileUtils.downloadFile("C:\\Users\\me\\Downloads", url);
InputStream inputStream = new FileInputStream(localPath);
HWPFDocument doc = new HWPFDocument(inputStream);
WordExtractor extractor = new WordExtractor(doc);
System.out.println(extractor.getText());

public static String downloadFile(String targetDir, String sourceUrl) throws IOException {
    sourceUrl = StringUtils.removeEnd(sourceUrl, "/");
    String fileName = sourceUrl.substring(sourceUrl.lastIndexOf("/") + 1);
    String targetPath = targetDir + FileUtils.SEPARATOR + fileName;
    InputStream in = new URL(sourceUrl).openStream();
    Files.copy(in, Paths.get(targetPath), StandardCopyOption.REPLACE_EXISTING);
    System.out.println("Downloaded " + sourceUrl + " to " + targetPath);
    return targetPath;
}

知道这里发生了什么吗？

更新:我创建了一个单独的项目来尝试使用 POI 4.1.0。相同的代码(第一次尝试)导致 org.apache.poi.EmptyFileException:提供的文件为空(零字节长)

我尝试在按 F12 并观察“网络”选项卡后将 URL 粘贴到浏览器中。出现的消息是:资源解释为文档，但使用 MIME 类型 application/msword 进行传输:“https://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc ”。

我还是被困住了...

更新:如 https://stackoverflow.com/users/3915431/axel-richter指出，有一个 301 重定向到 https://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc 。然而，现在我遇到了与Word无关的奇怪问题。以下代码失败:

public static void main(String[] args) {
    try {
        if (args.length > 0 && args[0].equals("disableCertValidation")) {
            SSLUtil.disableCertificateValidation(); // redirect is https
        }
        final String stringURL = "https://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc";
        URL url = new URL(stringURL);
        HttpURLConnection con = (HttpURLConnection) url.openConnection();
        int responseCode = con.getResponseCode();
        System.out.println("Response code: " + responseCode); //301 Moved Permanently
        InputStream in = con.getInputStream();
        HWPFDocument doc = new HWPFDocument(in);
        WordExtractor extractor = new WordExtractor(doc);
        String text = extractor.getText();
        System.out.println(text);
        in.close();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

当不带参数运行 main 时，该行

int responseCode = con.getResponseCode();

失败并出现以下异常:javax.net.ssl.SSLHandshakeException:sun.security.validator.ValidatorException:PKIX路径构建失败:sun.security.provider.certpath.SunCertPathBuilderException:无法找到请求目标的有效证书路径

使用disableCertificateValidation参数运行代码时，响应代码为404，并且出现以下异常:

java.io.FileNotFoundException:https://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc 在 sun.reflect.NativeConstructorAccessorImpl.newInstance0( native 方法) 在 sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) 在 sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) 在 java.lang.reflect.Constructor.newInstance(Constructor.java:422) 在 sun.net.www.protocol.http.HttpURLConnection$10.run(HttpURLConnection.java:1890) 在 sun.net.www.protocol.http.HttpURLConnection$10.run(HttpURLConnection.java:1885) 在 java.security.AccessController.doPrivileged( native 方法) 在 sun.net.www.protocol.http.HttpURLConnection.getChainedException(HttpURLConnection.java:1884) 在 sun.net.www.protocol.http.HttpURLConnection.getInputStream0(HttpURLConnection.java:1457) 在 sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1441) 在 sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(HttpsURLConnectionImpl.java:254) 在 com.keywords.control.util.TestHTMLParser.main(TestHTMLParser.java:472)引起原因:java.io.FileNotFoundException:https://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc 在 sun.net.www.protocol.http.HttpURLConnection.getInputStream0(HttpURLConnection.java:1836) 在 sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1441) 在 java.net.HttpURLConnection.getResponseCode(HttpURLConnection.java:480) 在 sun.net.www.protocol.https.HttpsURLConnectionImpl.getResponseCode(HttpsURLConnectionImpl.java:338) 在 com.keywords.control.util.TestHTMLParser.main(TestHTMLParser.java:470)

有什么想法吗？

最佳答案

对您的 URL 的初始 HTTP 请求会导致重定向 301 永久移动。因此我们需要处理这个问题并读取新位置。

完整示例:

import java.io.InputStream;
import java.net.URL;
import java.net.HttpURLConnection;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

public class OpenHWPFFromURL {

 public static void main(String[] args) throws Exception {

  String stringURL = "http://prevention.cancer.gov/sites/default/files/uploads/clinical_trial/Master-DMP-Template.doc";

  URL url = new URL(stringURL);
  HttpURLConnection con = (HttpURLConnection)url.openConnection();

  int responseCode = con.getResponseCode();
  System.out.println(responseCode); //301 Moved Permanently

  if (responseCode != HttpURLConnection.HTTP_OK) {
   if (responseCode == HttpURLConnection.HTTP_MOVED_TEMP
       || responseCode == HttpURLConnection.HTTP_MOVED_PERM
       || responseCode == HttpURLConnection.HTTP_SEE_OTHER) {
    url = new URL(con.getHeaderField("Location")); //get new location
    con = (HttpURLConnection)url.openConnection();
   }   
  }

  InputStream in = con.getInputStream();
  HWPFDocument doc = new HWPFDocument(in);
  WordExtractor extractor = new WordExtractor(doc);
  String text = extractor.getText();

  System.out.println(text);

 }
}

注意:如果重定向也更改了协议(protocol)(从 HTTP例如， 到 HTTPS)。这里的情况也是如此。因此，我们需要手动获取新位置，如我的代码所示。

关于java - 无法读取文档 URL : Unable to read entire header; 6 bytes read; expected 32 bytes，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56090668/

文章推荐： docker - F# 类型是否可以与容器化 (Docker) 资源一起使用？

文章推荐： Scrapy Torproject

文章推荐： java - 数据源在 WebLogic 12.2 上无故丢失

c# - byte = byte - byte 需要类型转换吗？
我有以下代码: foreach (byte b in bytes) { byte inv = byte.MaxValue - b; // Add the new value to a
Java文件逆向读写【byte by byte】
我需要从这个文本文件source.txt中读取内容并将内容反向写入这个文本文件destination.txt。读取和写入必须使用逐字节完成! 我使用 BufferedReader 和 Buffered
java - 在 Java 中存储颜色 - byte;byte;byte vs. byte[3] vs int
我需要存储大量 RGB 颜色对象。对于某些常见用途，这些占用了我的应用程序总内存的 8% 到 12%。我目前将其定义如下: class MyColor { byte red; byte green;
java - Bytes.toString(bytes) 和 bytes.toString() 有什么区别？
我有一个由字节数组表示的整数。 byte[] result = getResult(); resultInt1 = Integer.parseInt(Bytes.toString(result));/
rust - 如何从 std::string::String 获取 bytes::bytes::Bytes？
我正在尝试使用 Rusoto 库调用 AWS Lambda 函数。该请求有一个 JSON 编码的有效负载，我目前将其作为一个字符串，但该库为此坚持使用 bytes::bytes::Bytes 结构。我
rust - 如何通过 futures:stream::Stream 发送 bytes::bytes::Bytes？
我正在尝试基于 Tokio's example 编写一个 TCP 服务器. 当我尝试发送缓冲区时，编译器返回错误 0277。我的代码:(playground) extern crate tokio;
c# - 是否可以将 IList> 转换为 byte[] 而无需枚举列表并添加到新的 byte[]？
我知道我可以通过 IList 进行枚举，例如: public byte[] ConvertToByteArray(IList> list) { IList newList = new List
go - bytes.String() 与 bytes.Bytes() 在 Go 中
考虑这样一个文本文件: Some text here. --- More text another line. --- Third part of text. 我想把它分成三部分，用---分隔符分开。
java - 为什么 byte += 1 编译但 byte = byte + 1 不编译？
如果我有一个字节变量:byte b = 0; 为什么以下工作: b++; b += 1; // compiles ...但这不是吗？ b = b + 1; // compile er
java - 创建自定义 getColor(byte r, byte g, byte b) 方法
我有一个简单的字节数组，我想从中获取颜色。我的计划是用红色表示三位，绿色表示三位，蓝色表示两位。 8 位。我认为颜色是正确的: 如有错误请指正 byte[] colours = new byte[
java - 我有两个 byte[] ，我需要比较这个 byte[] 之间的字符串，是否需要显式转换 new String(byte[])
我的目标是比较两个字节数组中的两个字符串值。它实际上需要创建两个新的字符串对象才能使用 contains 方法。是选择正确还是有什么办法可以使用优化方式而不使用新的关键字。 if(new String
arrays - [] byte {10}或[] byte(“\n”)与[] byte {92，110}
我正在使用github.com/tarm/serial来连接一些串行仪器。在开发过程中，我使用/dev/ttyp0和/dev/ptyp0对，其中go进程连接到一个，我使用screen连接到另一个。我编
byte - "half-byte"是否真的用作术语？
好的，所以如果一个字节是 8 位，那么半字节就是 4 位。并且您可以将四分之一字节作为 2 位(尽管我想，如果有的话，它会被称为双位)。虽然这是一致的，但如果我使用这个词，有人会感到困惑(或惊讶)吗
java - byte[] 到字符串并返回 byte[]
我在解释文件时遇到问题。文件构建如下: "name"-@-"date"-@-"author"-@-"signature" 签名是一个字节数组。当我读回文件时，我将其解析为 String 并拆分它: m
c++ - "by the bytes"与 "in bytes"
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
Java:byte[] 到 Byte[]
Java 让我很难过，因为它需要 ArrayList 的包装类秒。我将如何添加 byte[]到 ArrayList ？最佳答案 LOL 认为我必须包装所有东西。 ArrayList作品。谢谢一晒。
postgresql - Postgres : How to convert 16 bytes into 4 bytes by XOR-ing every 4 bytes
我有一个 16 字节的 md5 散列，我需要使用 XOR 将其“折叠”成 4 字节数据:{1st 4 bytes} XOR {2nd 4 bytes} XOR {3rd 4 bytes} XOR {4
linux - 对 "three successive writes: bytes 10, bytes 32, bytes 54"感到困惑？
我正在学习SMSC smc91cx驱动代码，我学习了如何根据Application Note 9-6的说明编写smc91c111网卡的测试代码。 .我无法理解“传输数据包”下的以下说明: Write
java - 我可以使用 addAll Collection 方法添加所有元素(类型 :byte) from arrays(byte[]) to a List of type Byte?
我必须附加(可变数量的)字节数组。集合似乎只适用于包装类，即 Byte。大约 20 小时后，我想到了这个，并且它有效，但我想知道它是否可以改进(添加到列表，但欢迎任何其他改进建议:)，即 Collec
c - 通过 'insert bytes' 使 'remove bytes' 和 'insert bytes' 一起工作，并具有正/负偏移量
我有两个基本相同的操作: insert_bytes(from, count) delete_bytes(start, stop) -> delete_bytes(from, count) insert

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 无法读取文档 URL : Unable to read entire header; 6 bytes read; expected 32 bytes