java - 从urlconnection的输入流中读取时速度变慢(即使使用byte []和缓冲区)-6ren

java - 从urlconnection的输入流中读取时速度变慢(即使使用byte []和缓冲区)

转载作者：行者123 更新时间：2023-11-30 11:58:56

好吧，在花了两天时间试图解决问题并阅读了不计其数的文章之后，我终于决定动身并寻求一些建议（这是我第一次来）。

现在要解决的问题-我正在编写一个程序来解析游戏中的api数据，即战斗日志。数据库中将有很多条目（20+百万），因此每个战斗日志页面的解析速度都相当重要。

要解析的页面如下所示：http://api.erepublik.com/v1/feeds/battle_logs/10000/0.
（如果使用的是chrome，请参见源代码，它不会正确显示页面）。它有1000个命中条目，其后是一些战斗信息（最后一页显然会小于1000）。页面平均包含175000个字符，UTF-8编码，xml格式（v 1.0）。程序将在良好的PC上本地运行，内存实际上是无限的（因此，创建byte [250000]是可以的）。

格式永远不变，这非常方便。

现在，我像往常一样开始：

//global vars,class declaration skipped

    public WebObject(String url_string, int connection_timeout, int read_timeout, boolean redirects_allowed, String user_agent)
                    throws java.net.MalformedURLException, java.io.IOException {
                // Open a URL connection
                java.net.URL url = new java.net.URL(url_string);
                java.net.URLConnection uconn = url.openConnection();
                if (!(uconn instanceof java.net.HttpURLConnection)) {
                    throw new java.lang.IllegalArgumentException("URL protocol must be HTTP");
                }
                conn = (java.net.HttpURLConnection) uconn;
                conn.setConnectTimeout(connection_timeout);   
                conn.setReadTimeout(read_timeout);      
                conn.setInstanceFollowRedirects(redirects_allowed);
                conn.setRequestProperty("User-agent", user_agent);
            }
     public void executeConnection() throws IOException {
            try {
                is = conn.getInputStream(); //global var
                l = conn.getContentLength(); //global var         
            } catch (Exception e) {
            //handling code skipped
            }
    }

//getContentStream and getLength methods which just return'is' and 'l' are skipped

这是有趣的部分开始的地方。
我运行了一些配置文件（使用System.currentTimeMillis（）），以找出耗时长而又不需要的时间。
对该方法的调用平均仅需200毫秒

public InputStream getWebPageAsStream(int battle_id, int page) throws Exception {
    String url = "http://api.erepublik.com/v1/feeds/battle_logs/" + battle_id + "/" + page;
    WebObject wobj = new WebObject(url, 10000, 10000, true, "Mozilla/5.0 "
            + "(Windows; U; Windows NT 5.1; en-US; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3 ( .NET CLR 3.5.30729)");
    wobj.executeConnection();
    l = wobj.getContentLength(); // global variable
    return wobj.getContentStream(); //returns 'is' stream
}

从网络操作中可以预料到200毫秒，我对此表示满意。
但是当我以任何方式解析inputStream（将其读入字符串/使用java XML解析器/将其读入另一个ByteArrayStream）时，该过程将花费1000毫秒以上！

例如，如果我将上面从getContentStream（）获得的流（是）直接传递给此方法，则此代码花费1000ms：

public static Document convertToXML(InputStream is) throws ParserConfigurationException, IOException, SAXException {
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        DocumentBuilder db = dbf.newDocumentBuilder();
        Document doc = db.parse(is);
        doc.getDocumentElement().normalize();
        return doc;
    }

如果传入初始InputStream'is'，此代码也需要大约920ms（不要读入代码本身-它只是通过直接计算字符来提取我需要的数据，这要归功于严格的api提要格式）：

public static parsedBattlePage convertBattleToXMLWithoutDOM(InputStream is) throws IOException {
        // Point A
        BufferedReader br = new BufferedReader(new InputStreamReader(is));
        LinkedList ll = new LinkedList();
        String str = br.readLine();
        while (str != null) {
            ll.add(str);
            str = br.readLine();
        }           
        if (((String) ll.get(1)).indexOf("error") != -1) {
            return new parsedBattlePage(null, null, true, -1);
        }
        //Point B
        Iterator it = ll.iterator();
        it.next();
        it.next();       
        it.next();
        it.next();
        String[][] hits_arr = new String[1000][4];
        String t_str = (String) it.next();
        String tmp = null;
        int j = 0;
        for (int i = 0; t_str.indexOf("time") != -1; i++) {
            hits_arr[i][0] = t_str.substring(12, t_str.length() - 11);
            tmp = (String) it.next();
            hits_arr[i][1] = tmp.substring(14, tmp.length() - 9);
            tmp = (String) it.next();
            hits_arr[i][2] = tmp.substring(15, tmp.length() - 10);
            tmp = (String) it.next();
            hits_arr[i][3] = tmp.substring(18, tmp.length() - 13);
            it.next();
            it.next();
            t_str = (String) it.next();
            j++;
        }      
        String[] b_info_arr = new String[9];
        int[] space_nums = {13, 10, 13, 11, 11, 12, 5, 10, 13};
        for (int i = 0; i < space_nums.length; i++) {
            tmp = (String) it.next();
            b_info_arr[i] = tmp.substring(space_nums[i] + 4, tmp.length() - space_nums[i] - 1);
        }
        //Point C
        return new parsedBattlePage(hits_arr, b_info_arr, false, j);
    }

我试图用替换默认的BufferedReader

BufferedReader br = new BufferedReader(new InputStreamReader(is), 250000);

这没有太大变化。
我的第二次尝试是将A和B之间的代码替换为：
Iterator = IOUtils.lineIterator（is，“ UTF-8”）;

结果相同，除了这次A-B为0ms，B-C为1000ms，因此每次调用它.next（）必须消耗大量时间（IOUtils来自apache-commons-io库）。

罪魁祸首-在所有情况下，由迭代器或BufferedReader将流解析为字符串所花费的时间约为1000毫秒，而其余代码则花费了0毫秒（例如无关紧要）。这意味着由于某种原因将流解析到LinkedList或对其进行迭代会耗尽我的大量系统资源。问题是-为什么？这只是java的制作方式...不...那只是愚蠢的，所以我做了另一个实验。

在我的主要方法中，我在getWebPageAsStream（）之后添加了：

    //Point A
    ba = new byte[l]; // 'l'  comes from wobj.getContentLength above
    bytesRead = is.read(ba); //'is' is our URLConnection original InputStream 
    offset = bytesRead;           
    while (bytesRead != -1) {
        bytesRead = is.read(ba, offset - 1, l - offset);
        offset += bytesRead;
    }
    //Point B
    InputStream is2 = new ByteArrayInputStream(ba);
    //Now just working with 'is2' - the "copied" stream

InputStream-> byte []转换又花了1000毫秒-这是许多人建议使用的方法读取InputStream，但它很慢。猜猜是什么-上面的2个解析器方法（convertToXML（）和convertBattlePagetoXMLWithoutDOM（），在通过“ is2”而不是“ is”传递时，在所有4种情况下，都需要50毫秒以内。

我读到一条建议，即流在取消阻塞之前先等待连接关闭，因此我尝试改用HttpComponentsClient 4.0（ http://hc.apache.org/httpcomponents-client/index.html），但最初的InputStream解析时间很长。例如此代码：

public InputStream getWebPageAsStream2(int battle_id, int page) throws Exception {
        String url = "http://api.erepublik.com/v1/feeds/battle_logs/" + battle_id + "/" + page;
        HttpClient httpclient = new DefaultHttpClient();
        HttpGet httpget = new HttpGet(url);      
        HttpParams p = new BasicHttpParams();
        HttpConnectionParams.setSocketBufferSize(p, 250000);
        HttpConnectionParams.setStaleCheckingEnabled(p, false);
        HttpConnectionParams.setConnectionTimeout(p, 5000);
        httpget.setParams(p);           
        HttpResponse response = httpclient.execute(httpget);
        HttpEntity entity = response.getEntity();
        l = (int) entity.getContentLength();
        return entity.getContent();
    }

处理时间甚至更长（仅网络需要50毫秒），流解析时间保持不变。显然，可以实例化它，以免每次都（更快的网络时间）创建HttpClient和属性，但是流问题不会因此受到影响。

因此，我们提出了一个中心问题-为什么初始URLConnection InputStream（或HttpClient InputStream）要花这么长时间处理，而本地创建的相同大小和内容的任何流却要快几个数量级？我的意思是，初始响应已经在RAM中的某个位置，所以我看不出有什么很好的理由说明为什么与仅从byte []创建相同的流相比，其处理速度如此之慢。

考虑到我必须解析成百万的条目和成千上万的页面，总处理时间接近1.5s /页面似乎太长了。

有任何想法吗？

附言请询问是否需要更多代码-解析后，我唯一要做的就是制作一个PreparedStatement并将条目以1000+包的形式放入JavaDB中，性能还可以〜200ms / 1000entries，可以用更多的缓存来优化prb，但是我没有研究太多。

最佳答案

因为它正在从远程服务器读取，所以需要更长的时间。您的executeConnection（）方法只是创建流，实际上并没有从服务器读取整个响应。一旦您开始从流中读取内容，便可以完成此操作。

关于java - 从urlconnection的输入流中读取时速度变慢(即使使用byte []和缓冲区)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2846411/

文章推荐： java - 将 gcc 编译状态保存到 Java 的文本文件

文章推荐： java - 运行 java -jar 命令时出错

文章推荐： java - 使用 AI 旋转灰度图像增加对比度

文章推荐： java - 删除图片后 JFrame 不刷新

java - 流<流> : flatMap vs. 减少
这个问题在这里已经有了答案: Why filter() after flatMap() is "not completely" lazy in Java streams? (8 个答案) 关闭 6
instagram - 是否有像 Twitter 流 API 一样的 Instagram 流 API？
我正在创建一个应用程序来从 Instagram 收集数据。我正在寻找像 Twitter 流 API 这样的流 API，这样我就可以自动实时收集数据而无需发送请求。 Instagram 有类似的 API
java - 您的 InputStream 既不是 OLE2 流，也不是 OOXML 流
我正在使用 Apache Commons 在 Google App Engine 中上传一个 .docx 文件，如此链接中所述 File upload servlet .上传时，我还想使用 Apach
java - 使用 AWS Java DynamoDB 流 Kinesis 适配器处理 DynamoDB 流
我尝试使用 DynamoDB 流和 AWS 提供的 Java DynamoDB 流 Kinesis 适配器捕获 DynamoDB 表更改。我正在 Scala 应用程序中使用 AWS Java 开发工具
FFMPEG RTSP IP 流 (H.264) 转换为 RTSP 流 (MPEG-2)
我目前有一个采用 H.264 编码的 IP 摄像机流式视频 (RTSP)。我想使用 FFmpeg 将此 H.264 编码流转换为另一个 RTSP 流，但 MPEG-2 编码。我该怎么做？我应该使用哪
集群模式下的 Redis 流
Redis 流是否受益于集群模式？假设您有 10 个流，它们是分布在整个集群中还是都分布在同一节点上？我计划使用 Redis 流来实现真正的高吞吐量(200 万条消息/秒)，所以我担心这种规模的 Re
Java 流 - 在可空列表上进行流式处理的优雅方式
这件事困扰了我一段时间。所以我有一个 Product 类，它有一个 Image 列表(该列表可能为空)。我想做 product.getImages().stream().filter(...) 但
具有持久存储的 Redis 流
是否可以使用具有持久存储的 Redis 流还是流仅限于内存数据？我知道可以将 Redis 与核心数据结构的持久存储一起使用，但我已经能够理解是否也可以使用 Redis 中的流的持久存储。最佳答
elixir - 具有前瞻性的可枚举/流
我开始学习 Elixir 并遇到了一个我无法轻松解决的挑战。我正在尝试创建一个函数，该函数接受一个 Enumerable.t 并返回另一个 Enumerable.t ，其中包含下 n 个项目。它与
scala - readLines 流
我试图从 readLine 调用创建一个无限的字符串流: import java.io.{BufferedReader, InputStreamReader} val in = new Buffere
Java 8 流 : For Each
你能帮我使用 Java 8 流 API 编写以下代码吗？ SuperUser superUser = db.getSuperUser; for (final Client client : super
rust - 暗示AsyncRead为补品::流
我正在尝试服用补品routeguide tutorial，并将客户端变成rocket服务器。我只是接受响应并将gRPC转换为字符串。 service RouteGuide { rpc GetF
javascript - 流 - 类型可能与联合类型不兼容
流程代码可以是run here. 使用 flow，我有一个函数，它接受一个键值对对象并获取它的值 - 它获取的值应该是字符串、数字或 bool 值。 type ValueType = string
javascript - 流、对象字面量与联合不兼容
如果我有一个函数返回一个包含数据库信息的对象或一个空对象，如下所示: getThingFromDB: async function(id:string):Promise{ const from
facebook - 流。发布ogg
我正在尝试使用javascript api和FB.ui将ogg音频文件发布到流中，但是我不知道该怎么做。这是我给FB.ui的电话: FB.ui( { method: '
Accurev:无法删除工作区/流
我正在尝试删除工作区(或克隆它以使其看起来像父工作区，但我似乎两者都做不到)。但是，当我尝试时，我收到此消息:无法删除工作区 test_workspace，因为它有一个非空的默认组。据我所知，这意味
java - 流 'map'可以用于这样的处理吗？
可以使用 Stream|Map 来完成此操作，这样我就不需要将结果放入外部 HashMap 中，而是使用 .collect(Collectors.toMap(...)); 收集结果？ Map rep
Java 流 API
当我们从集合列表中获取 Stream 时，幕后到底发生了什么？我发现很多博客都说Stream不存储任何数据。如果这是真的，请考虑代码片段: List list = new ArrayList(); l
带列表的 Java 流
我对流及其工作方式不熟悉，我正在尝试获取列表中添加的特定对象的出现次数。我找到了一种使用Collections来做到这一点的方法。其过程如下: for (int i = 0; i p.conten
Java 流 - 映射列表到简化的映射列表
我希望将一个 map 列表转换为另一个分组的 map 列表。所以我有以下 map 列表 - List [{ "accId":"1", "accName":"TestAcc1", "accNumber

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 从urlconnection的输入流中读取时速度变慢(即使使用byte []和缓冲区)