c# - 使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf-6ren

c# - 使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf

转载作者：行者123 更新时间：2023-11-30 12:33:36

所以我们有一些非常低效的代码，它们根据允许的最大大小将 pdf 分成更小的 block 。阿卡。如果最大大小为 10 兆，将跳过 8 兆的文件，而 16 兆的文件将根据页数拆分。

这是我继承的代码，我觉得必须有一种更有效的方法来做到这一点，只需要一个方法和更少的对象实例化。

我们使用下面的代码来调用这些方法:

        List<int> splitPoints = null;
        List<byte[]> documents = null;

        splitPoints = this.GetPDFSplitPoints(currentDocument, maxSize);
        documents = this.SplitPDF(currentDocument, maxSize, splitPoints);

方法:

    private List<int> GetPDFSplitPoints(IClaimDocument currentDocument, int maxSize)
    {
        List<int> splitPoints = new List<int>();
        PdfReader reader = null;
        Document document = null;
        int pagesRemaining = currentDocument.Pages;

        while (pagesRemaining > 0)
        {
            reader = new PdfReader(currentDocument.Data);
            document = new Document(reader.GetPageSizeWithRotation(1));

            using (MemoryStream ms = new MemoryStream())
            {
                PdfCopy copy = new PdfCopy(document, ms);
                PdfImportedPage page = null;

                document.Open();

                //Add pages until we run out from the original
                for (int i = 0; i < currentDocument.Pages; i++)
                {
                    int currentPage = currentDocument.Pages - (pagesRemaining - 1);

                    if (pagesRemaining == 0)
                    {
                        //The whole document has bee traversed
                        break;
                    }

                    page = copy.GetImportedPage(reader, currentPage);
                    copy.AddPage(page);

                    //If the current collection of pages exceeds the maximum size, we save off the index and start again
                    if (copy.CurrentDocumentSize > maxSize)
                    {
                        if (i == 0)
                        {
                            //One page is greater than the maximum size
                            throw new Exception("one page is greater than the maximum size and cannot be processed");
                        }

                        //We have gone one page too far, save this split index   
                        splitPoints.Add(currentDocument.Pages - (pagesRemaining - 1));
                        break;
                    }
                    else
                    {
                        pagesRemaining--;
                    }
                }

                page = null;

                document.Close();
                document.Dispose();
                copy.Close();
                copy.Dispose();
                copy = null;
            }
        }

        if (reader != null)
        {
            reader.Close();
            reader = null;
        }

        document = null;

        return splitPoints;
    }

    private List<byte[]> SplitPDF(IClaimDocument currentDocument, int maxSize, List<int> splitPoints)
    {
        var documents = new List<byte[]>();
        PdfReader reader = null;
        Document document = null;
        MemoryStream fs = null;
        int pagesRemaining = currentDocument.Pages;

        while (pagesRemaining > 0)
        {
            reader = new PdfReader(currentDocument.Data);
            document = new Document(reader.GetPageSizeWithRotation(1));

            fs = new MemoryStream();
            PdfCopy copy = new PdfCopy(document, fs);
            PdfImportedPage page = null;

            document.Open();

            //Add pages until we run out from the original
            for (int i = 0; i <= currentDocument.Pages; i++)
            {
                int currentPage = currentDocument.Pages - (pagesRemaining - 1);
                if (pagesRemaining == 0)
                {
                    //We have traversed all pages
                    //The call to copy.Close() MUST come before using fs.ToArray() because copy.Close() finalizes the document
                    fs.Flush();
                    copy.Close();
                    documents.Add(fs.ToArray());
                    document.Close();
                    fs.Dispose();
                    break;
                }

                page = copy.GetImportedPage(reader, currentPage);
                copy.AddPage(page);
                pagesRemaining--;

                if (splitPoints.Contains(currentPage + 1) == true)
                {
                    //Need to start a new document
                    //The call to copy.Close() MUST come before using fs.ToArray() because copy.Close() finalizes the document
                    fs.Flush();
                    copy.Close();
                    documents.Add(fs.ToArray());
                    document.Close();
                    fs.Dispose();
                    break;
                }
            }

            copy = null;
            page = null;

            fs.Dispose();
        }

        if (reader != null)
        {
            reader.Close();
            reader = null;
        }

        if (document != null)
        {
            document.Close();
            document.Dispose();
            document = null;
        }

        if (fs != null)
        {
            fs.Close();
            fs.Dispose();
            fs = null;
        }

        return documents;
    }

据我所知，我能看到的唯一在线代码是 VB，不一定能解决大小问题。

更新:

我们遇到了 OutofMemory 异常，我认为这是大对象堆的问题。因此，一种想法是减少代码占用空间，这可能会减少堆上大对象的数量。

基本上这是遍历任意数量的 PDF，然后拆分它们并将它们存储在数据库中的循环的一部分。现在，我们不得不改变方法，从一次完成所有这些(最后一次运行 97 个不同大小的 pdf)到每 5 分钟在系统中运行 5 个 pdf。这并不理想，并且在我们向更多客户推广该工具时无法很好地扩展。

(我们正在处理 50 -100 兆的 pdf，但它们可能更大)。

最佳答案

我也继承了这个确切的代码，但它似乎有一个重大缺陷。在 GetPDFSplitPoints 方法中，它根据最大大小检查复制页面的总大小，以确定在哪个页面拆分文件。
在 SplitPDF 方法中，当它到达发生拆分的页面时，果然此时的 MemoryStream 低于允许的最大大小，再多一页就会超过限制。但是在执行 document.Close(); 之后，MemoryStream 添加了更多内容(在我使用的一个 PDF 示例中，Length MemoryStream 在 document.Close 之前和之后从 9 MB 变为 19 MB)。我的理解是复制页面的所有必要资源都是在 Close 时添加的。
我猜我必须完全重写这段代码，以确保在保持原始页面完整性的同时不超过最大大小。

关于c# - 使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9024839/

文章推荐： ios - setNavigationBarHidden 在 setViewControllers 之后不起作用

文章推荐： javascript - 如何在 Grunt Build 中使用多个复制命令？

文章推荐： ios - 当我粘贴文本时，它无法获取文本的高度

文章推荐： javascript - D3 -- 未显示弦图的圆弧

itextsharp - 减少 iTextSharp 上的段落换行高度
当段落长度对于 ColumnText 的宽度来说太长时，如何减少换行符的高度？我已经尝试了以下方法，因为我看到了其他回答这个问题的问题: p.Leading = 0 但这并没有产生任何影响。我还尝
itextsharp - 在 iTextSharp 中使用富文本值加粗
是否可以使用 iTextSharp 将句子中的单个单词加粗？我正在处理来自 xml 的大段文本，并且我试图将几个单独的单词加粗，而不必将字符串分成单独的短语。例如: document.Add(new
itextsharp - 如何在 iTextSharp 中使用不间断空格
不间断空格如何用于在 PdfPTable 单元格中包含多行内容。 iTextSharp 正在用空格字符分解单词。场景是我想要在表头中显示多行内容，例如在第一行可能显示“Text1 &”，在第二行显示
itextsharp - 如何调整字体大小以填充 iTextSharp 中固定高度的表格单元格
我正在从 iTextSharp 创建 PDF 以供打印。我有可变长度的文本，我希望始终以最大字体大小填充固定高度的表格单元格，而不会换行。如何做到这一点？最佳答案首先，您需要能够测量所选字体的文本
itextsharp - 如何在 iTextSharp 上使用 PDFTextExtractor
我想使用 iTextSharp 从 pdf 文件中检索文本。但是，我无法像在 itextsharp(itext) 的 JAVA 库中那样使用 PDFTextExtractor。我需要 readPDFO
itextsharp - 使用 iTextSharp.ShowTextAligned() 添加水印
我们想在发送之前在我们的 pdf 顶部添加一个带有用户电子邮件和名称的水印。我已经编写了执行此操作的代码，并且运行良好。我想检查这是否是最好的方法。我们希望在 pdf 的顶部将水印分成两行。，我使用
itextsharp - 如何使用 iTextsharp 更改 PDF 中第二页的边距？
有没有办法使用 iTextSharp 更改 PDF 中第二页的页边距？我现在有: Document document = new Document(PageSize.A4, 144f, 72f, 1
itextsharp - 如何在 itextsharp 中使用 PdfContentByte 给文本加下划线
这其实是引用Question实际上已关闭我正在使用 ItextSharp 5.2.1。我想使用 PdfContentByte 使我的标题文本带有下划线。请为我提供解决方案。最佳答案 privat
itextsharp - 为什么来自 iTextSharp 的 GetTextFromPage 返回越来越长的字符串？
我正在使用来自 nuGet (5.5.8) 的最新 iTextSharp 库来解析 pdf 文件中的一些文本。我面临的问题是 GetTextFromPage 方法不仅从它应该返回的页面中返回文本，它还
itextsharp - 如何在使用 iTextSharp 保持方向的同时缩放 PDF 页面？
如何在保持 itextsharp 旋转的同时缩放 pdf 页面？我有以下内容，但我失去了轮换: public static void ScaleToLetter(string inPDF,
itextsharp - 使用 ITextSharp 在 PDF 中插入图像
我必须在 pdf 中插入图像。也就是说，无论我在哪里看到文本“签名”，我都必须在那里插入签名图像。我可以通过说 absolute positions 来做到。但是，我正在寻找如何在 pdf 中找到“签
itextsharp - 必须添加哪个类或命名空间才能在 itextSharp 中使用 Class StyleAttrCSSResolver？
我希望使用 itextSharp 将 html 转换为 pdf。我希望在我的 pdf 中有一个特定的样式。我希望所有 pdf 文件都遵循特定的 CSS 类。但我不知道我必须添加那个编译器 khno
itextsharp - 如何通过 Itextsharp 在 PDF 的页脚中添加页码
我在 ASP.NET 代码中使用 iTextSharp DLL。我正在将数据提取到数据集中并将数据集添加到 PDF 表中。如果我的数据集有更多 100 行，那么 100 行将添加到 PDF 表中，并
itextsharp - 使用 itextsharp 更改 pdf 中的默认字体和字体大小
如何使用 iIextSharp 为 PDF 文档设置默认字体和字体大小，以便在整个 PDF 中使用它。最佳答案遇到与俄语和罗马尼亚字母相同的问题(itextsharp 5.5.6.0，.net 3
itextsharp - 如何在 itextsharp 中使用 PdfContentByte 时换行文本
我使用 PdfContentByte 在 pdf 中显示文本，因为我现在也使用 SetTextMatrix mathod 来放置该文本，当我的文本很大时它不会显示在 pdf 中显示我可以包装文本显示我
itextsharp - 图像未按顺序添加到 pdf 文档 itextsharp(元素顺序错误)
我现在正在使用 iTextSharp (5.4.5) 几个星期。这周，我在文档中的元素顺序方面遇到了一些奇怪的事情。我正在处理包含主题和图像(图表)的 pdf 报告。文档的格式是这样的: 自然保护
itextsharp - 使用 PDF itextSharp 可以在创建 pdf 文档时将图像放在文本之上
我尝试了几种方法来做到这一点，但仍然无法做到。看来 iTextSharp 需要 2 次通过情况，以便图像出现在文本顶部。所以我尝试使用内存流来执行此操作，但我不断收到错误。 Public Fu
itextsharp - 如何在 iTextSharp 中以静态 XFA 形式设置 XFA 数据并保存？
我在 iText/iTextSharp(iTextSharp 5.3.3 通过 NuGet)中遇到了一个非常奇怪的 XFA 表单问题。我正在尝试填写静态 XFA 样式的表单，但我的更改没有生效。我有
itextsharp - 使用 itextsharp 的文本 x 和 y 坐标
当我使用 itextsharp 提取文本时，我将获得文本的 x 和 y 坐标。如果我根据 xy 位置将文本从 pdf 转换为 html，则通过使用这 2 个坐标，文本位置 chnages 。得到我使用
itextsharp - 使用 itextsharp 5.4.4 签署 pdf - 示例
有人可以提供示例或链接到使用 itextsharp 5.4.4 签署现有 pdf 的示例吗？理想情况下保持 pdf/pdf 的一致性？谢谢。编辑:我理解这个问题看起来好像我没有使用谷歌等。但是，新版

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c# - 使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf