gpt4 book ai didi

c# - 如何准备 Word 2007 文档以便 C# 可以从语义上提取数据?

转载 作者:数据小太阳 更新时间:2023-10-29 02:09:34 27 4
gpt4 key购买 nike

我有一个 friend 正在用 Microsoft Word 2007 写一本400 页的书

在整本书中,他有 200 个故事,每个故事都由许多段落组成。

当他写完这本书后,他想将嵌入在他的 Word 文档中的每个故事的文本复制到一个数据库表中,例如:

Title, varchar(200)
Description, text
Content, text

我们不想将每个故事都复制并粘贴到数据库中,而是希望有一个程序自动将标记的数据从 Word 文件中提取到数据库中的相应字段中。

  1. 他必须在 Microsoft Word 中做什么才能将每组段落表示为“故事内容”,将每个标题表示为“故事标题”等。先决条件是此标记在文档中不可见。我知道 Word 2007 文件基本上是压缩的 XML 文件,所以我认为这是可能的,并且我认为样式表 是我们需要的,但是我需要如何精确地准备 Word 文档,以便他添加他们被正确标记的故事?

  2. 我假设 C# 4.0 的新 COM Interop 功能是我分析 Word 文件并从嵌入式故事中检索标题、描述和内容所需要的,但是如何我在技术上这样做吗?有没有人有例子?

有没有人有过这样的项目经验(将 Microsoft Word 作为语义数据文件读取)并可以分享?

最佳答案

我会做的是使用样式。为每种类型的内容设置一种样式,并编写一个宏来逐段遍历文档并吐出相应的文本文件。

关于c# - 如何准备 Word 2007 文档以便 C# 可以从语义上提取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3431544/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com