c# - 如何通过页码访问 OpenXML 内容？-6ren

c# - 如何通过页码访问 OpenXML 内容？

转载作者：数据小太阳更新时间：2023-10-29 01:57:06

24

4

使用OpenXML，我可以按页码阅读文档内容吗？

wordDocument.MainDocumentPart.Document.Body 给出完整文档的内容。

  public void OpenWordprocessingDocumentReadonly()
        {
            string filepath = @"C:\...\test.docx";
            // Open a WordprocessingDocument based on a filepath.
            using (WordprocessingDocument wordDocument =
                WordprocessingDocument.Open(filepath, false))
            {
                // Assign a reference to the existing document body.  
                Body body = wordDocument.MainDocumentPart.Document.Body;
                int pageCount = 0;
                if (wordDocument.ExtendedFilePropertiesPart.Properties.Pages.Text != null)
                {
                    pageCount = Convert.ToInt32(wordDocument.ExtendedFilePropertiesPart.Properties.Pages.Text);
                }
                for (int i = 1; i <= pageCount; i++)
                {
                    //Read the content by page number
                }
            }
        }

MSDN Reference

更新 1:

看起来分页符设置如下

<w:p w:rsidR="003328B0" w:rsidRDefault="003328B0">
        <w:r>
            <w:br w:type="page" />
        </w:r>
    </w:p>

所以现在我需要将 XML 与上面的检查分开，并为每个检查使用 InnerTex，这将给我页面虎钳文本。

现在问题变成了如何使用上述检查拆分 XML？

更新 2:

仅当您有分页符时才设置分页符，但如果文本从一页 float 到其他页面，则没有设置分页符 XML 元素，因此它返回到相同的挑战如何识别页面分隔.

最佳答案

您不能仅在 OOXML 数据级别通过页码引用 OOXML 内容。

硬分页符 不是问题；可以计算硬分页符。
软分页符 是问题所在。这些是根据计算的实现的换行和分页算法受抚养人；它不是 OOXML 数据固有的。空无一物数数。

w:lastRenderedPageBreak 呢，它记录了文档最后一次呈现时软分页符的位置？ 不，w:lastRenderedPageBreak 通常也没有帮助，因为:

根据定义，w:lastRenderedPageBreak 位置在内容已过期时失效自上次打开后被对其进行分页的程序更改内容。
在 MS Word 的实现中，w:lastRenderedPageBreak 已知在各种情况下都不可靠，包括

如果您愿意接受对 Word Automation 的依赖，及其所有固有的 licensing and server operation limitations , 那么您就有机会确定页面边界、页码、页数等。

否则，唯一真正的答案是超越依赖专有的、特定于实现的分页算法的基于页面的引用框架。

关于c# - 如何通过页码访问 OpenXML 内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39992870/

24

4

0

文章推荐： testing - 测试中的标志导致其他测试无法运行

文章推荐： go - 在没有 oAuth 的情况下针对 Azure AD 验证用户凭据

文章推荐： go - 通过 Go 中的自定义 io.Writer 编辑敏感数据

文章推荐： java - 如何通过xml签名文件提取 "original"内容

html2pdf 页码
我有一个 html 代码，当我使用 html2pdf 将其转换为 pdf 时，它比单个页面长，我需要将页码放在两个页面中。我试过把 page_footer 代码放在这篇文章中说的:html2pdf
php - 如何多次加载AJAX来分别更改页面(页码)？
我有这样的东西：（忽略代码的丑陋）。 xmlhttp=new XMLHttpRequest(); xmlhttp.onreadystatechange=function(){ if (xmlh
python - BeautifulSoup 页码
我正在尝试从 The Wealth of Nations 的在线版本中提取文本并创建一个数据框，其中每个观察结果都是书中的一页。我以一种迂回的方式来做，试图模仿我在 R 中所做的类似的事情，但我想知道
Python PPTX读取幻灯片编号(页码)
我正在为由 Python-PPTX 生成的幻灯片制作自定义目录。对于已经设置好的幻灯片、页脚和幻灯片编号，我已经可以在生成的 PPTX 中查看它。我相信幻灯片编号已经存在，只需要阅读。我的问题是，幻
sitemap - 可视化大型(页码)网站的站点地图
我正在寻找一种工具或服务，它可以抓取具有大量页面的网络域，创建站点地图，然后以有助于我查看、理解和分组内容的方式可视化该 map (我是新手站点)像 TreeView 或其他标准站点地图可视化之类的东
javascript - 获取JS slider 页码
所以我有一个像这样分组的 slider : slide content slide content slide content slide content s
wkhtmltopdf - 如何重置特殊标签上的 wkhtmltopdf 页码
当我在文档正文中获得特殊标记时(例如，当我获得时，我希望下一页页脚显示“第 1 页 x”时，我尝试重置页码)其中 x 是下一个分页符之前的页数) 事实上，它应该与我分割正文文档并单独转换它完全相同
ios - 更新字体时更新 webview 页码
我正在开发一个图书阅读器 iOS 应用程序，并使用 webview 显示 epub 图书。我用于解析 epub 图书的第 3 方库是“KFEpubKit”。我必须为用户提供调整字体大小的选项(如在
javascript - 在网络浏览器上显示 html 页码
我正在创建一个基于 Web 的教程，其中包含多个页面的模块。我在每个页面的底部都有页码(xx of yy，例如“01/12”)，使用 html div 和 css。我有一个 java 包装器，但无法弄
java - PDFBox、BBox、页码？
我正在使用 PDFBox，成功地从 PDF 中检索字段坐标。继续处理多页 PDF，我遇到了这样的情况:我需要确定这些字段来自哪个页面，此外还需要将坐标从自下而上转换为自上而下。我已经阅读了文档的许多页
ios - 如何获取 UIWebView 页码
我使用以下代码对 UIWebView 进行分页。 self.webView.paginationMode = UIWebPaginationModeLeftToRight; self.webView.
java - Apache POI XSLFSlide 页码
有没有办法向新创建的幻灯片添加页码，并继承上一张幻灯片的样式？ XMLSlideShow slideShow = new XMLSlideShow(new FileInputStream("templ
php - CodeIgniter 分页 url 页码
据我所见，CodeIgniter 的分页计算页面的方式是错误的，因为我的分页看起来像这样: 1 2 3 > 很好，问题出在每个分页号码 url 中，除了第一个: 分页中的编号 2 具有以下 url:
pdf - 使用 iTextSharp 获取 PDF 页码
我一直在玩这个库，但运气不好。我想提取下面的文字 1196 页。我怎样才能使用这个库来做到这一点？最佳答案好吧，经过几次尝试，我确实设法得到了那个文字页面，所以我要分享这个。所以从技术上讲，文字
ios - 查询的 iTunes 搜索 API 页码
有没有办法获得搜索查询下一页的结果？当我提供页面参数时，我从 iTunes 得到相同的结果: https://itunes.apple.com/search?country=us&limit=200&
xml - XSL-FO 页码 2a、2b
在我的 XSL-FO 中:我需要在页脚中显示页码。我的页面布局通常是:第 1、2、3、4、5 页。有时第 2 页会被 2a 和 2b 替换，因此流程应该是:1、2a、2b、3、4、5。第 2a
javascript - Html 表格转 PDF 我想对其进行格式化(页码，第二页不好)
我有一个格式问题，我的 html 表格的标题位于每一侧(我可以和谁住在一起)，但它看起来很糟糕(如下图)。然后我不想在 PDF 文件中插入页码(我不知道该怎么做)。我的 JavaScript fun
java - Java 和 iText 中的 PDF 页码
我正在使用 Java 中的 iText 创建一些 PDF 报告。根据要求，我应该做的是按照page_number/page_numbers_in_total格式对页码进行编号。但是，内存操作给我的项
javascript - 如何在 JavaScript 中动态更改 jQuery dataTable 页码？
我有这段代码，它根据按钮单击从服务中获取数据。当我单击上一个或下一个按钮时，我想要什么，我想更改数据表底部的页码。 $('.paginate_button.previous', this.api().
iframe - 如何从 PDF.js iframe 获取当前 PDF 页码？
我将查看器托管在我的本地网络服务器上，iframe 指向并加载 pdf。然后我想按下一个按钮，将页码“记录”到一个文本文件中，我读到 this似乎建议您可以使用 pdf.getPage 获取页码的问

首页

博学

6Ren·AI

商城

c# - 如何通过页码访问 OpenXML 内容？