- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
场景:我有大约 14000 个 word 文档需要从“Microsoft Word 97 - 2003 文档”转换为“Microsoft Word 文档”。换句话说升级到 2010 格式 (.docx)。
问题:有没有一种简单的方法可以使用 API 或其他方式来做到这一点?
注意:我只能找到一个将文档转换为 .docx 的 Microsoft 程序,但它们仍然以兼容模式打开。如果可以将它们转换为新格式,那就太好了。与您打开旧文档时获得的功能相同,它为您提供了转换它的选项。
编辑:刚找到http://msdn.microsoft.com/en-us/library/microsoft.office.interop.word._document.convert.aspx研究如何使用它。
EDIT2:这是我当前用于转换文档的函数
Private Sub btnConvert_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles btnConvert.Click
FolderBrowserDialog1.ShowDialog()
Dim mainThread As Thread
If Not String.IsNullOrEmpty(FolderBrowserDialog1.SelectedPath) Then
lstFiles.Clear()
DirSearch(FolderBrowserDialog1.SelectedPath)
ThreadPool.SetMaxThreads(1, 1)
lstFiles.RemoveAll(Function(y) y.Contains(".docx"))
TextBox1.Text += "Conversion started at " & DateTime.Now().ToString & Environment.NewLine
For Each x In lstFiles
ThreadPool.QueueUserWorkItem(New WaitCallback(AddressOf ConvertDoc), x)
Next
End If
End Sub
Private Sub ConvertDoc(ByVal path As String)
Dim word As New Microsoft.Office.Interop.Word.Application
Dim doc As Microsoft.Office.Interop.Word.Document
word.Visible = False
Try
Debug.Print(path)
doc = word.Documents.Open(path, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing, Type.Missing)
doc.Convert()
Catch ex As Exception
''do nothing
Finally
doc.Close()
word.Quit()
End Try
End Sub`
它让我选择一个路径,然后在子文件夹中找到所有文档文件。该代码并不重要,所有用于转换的文件都在 lstFiles 中。目前唯一的问题是即使只有 10 个文档也需要很长时间才能转换。我应该为每个文档使用一个单词应用程序而不是重复使用它吗?有什么建议吗?
它还会在大约 2 或 3 次转换后打开 word 并开始闪烁但继续转换。
EDIT3:对上面的代码进行了一点调整,它运行得更干净。虽然需要 1 分 10 秒来转换 8 个文件。考虑到我有 14000,我需要转换此方法将花费相当长的时间。
EDIT4:再次更改代码。现在使用线程池。好像跑得快了点。仍然需要在更好的计算机上运行才能转换所有文件。或者按文件夹慢慢做。任何人都可以想出任何其他方法来优化它吗?
最佳答案
我在本地运行了您的代码,仅进行了一些小的修改以改进跟踪和计时,并且“只”用了 13.73 秒来完成 12 个文件。这将在大约 4 小时内处理完您的 14,000 个。我在带有双核处理器的 Windows 7 x64 上运行 Visual Studio 2010。也许您可以使用速度更快的计算机?
这是我的完整代码,这只是一个带有单个按钮 Button1 和 FolderBrowserDialog FolderBrowserDialog1 的表单:
Imports System.IO
Public Class Form1
Dim lstFiles As List(Of String) = New List(Of String)
Private Sub DirSearch(path As String)
Dim thingies = From file In Directory.GetFiles(path) Where file.EndsWith(".doc") Select file
lstFiles.AddRange(thingies)
For Each subdir As String In Directory.GetDirectories(path)
DirSearch(subdir)
Next
End Sub
Private Sub Button1_Click(sender As System.Object, e As System.EventArgs) Handles Button1.Click
FolderBrowserDialog1.ShowDialog()
If Not String.IsNullOrEmpty(FolderBrowserDialog1.SelectedPath) Then
lstFiles.Clear()
DirSearch(FolderBrowserDialog1.SelectedPath)
Dim word As New Microsoft.Office.Interop.Word.Application
Dim doc As Microsoft.Office.Interop.Word.Document
lstFiles.RemoveAll(Function(y) y.Contains(".docx"))
Dim startTime As DateTime = DateTime.Now
Debug.Print("Timer started at " & DateTime.Now().ToString & Environment.NewLine)
For Each x In lstFiles
word.Visible = False
Debug.Print(x + Environment.NewLine)
doc = word.Documents.Open(x)
doc.Convert()
doc.Close()
Next
word.Quit()
Dim endTime As DateTime = DateTime.Now
Debug.Print("Took " & endTime.Subtract(startTime).TotalSeconds & " to process " & lstFiles.Count & " documents" & Environment.NewLine)
End If
End Sub
End Class
关于c# - 有没有办法把word文档升级到2010,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7487298/
我想标记一个字符串,例如 Best Beat Makers,以几乎类似于 NGram 的方式为每个单词生成标记,例如: IN: "Best Beat Makers" OUT: ["Best", "B
这个问题在这里已经有了答案: Is there a way to word-wrap long words in a div? (6 个答案) 关闭 7 年前。
我想编写一个 Python 代码来检查字符串是否包含类似于以下内容的内容: 'word.Word' => 将其替换为 'word.\nWord'。 smallLetter.capitalLetter
我想编写一个 Python 代码来检查字符串是否包含类似于以下内容的内容: 'word.Word' => 将其替换为 'word.\nWord'。 smallLetter.capitalLetter
我有以下正则表达式: ^--([\w|-]+) 我想匹配 --word --no-word 但不是: ---word ----word 最佳答案 将表情更改为 ^--(\w[-\w]*) 这需要在两个
在我的加载项中,我需要为每个打开的文档创建一个任务 Pane 。在加载项的启动方法中,我订阅了 ApplicationEvents4_Event.NewDocument 和 Application.D
我使用 word javascript api 开发了一个 word 插件。我的文档 .docx 文件在服务器上,我需要在加载项中单击按钮打开该 .docx 文档作为新的 Word 文档。 请指导我如
我需要在某个地方修复一些 CSS,因为我的文本没有环绕,如果它是一个非常长的单词,它会无限期地继续下去。 在大多数情况下,我在我的 CSS 文件中尝试了 word-wrap: break-word;
这个问题在这里已经有了答案: What is the difference between "word-break: break-all" versus "word-wrap: break-word
这个问题在这里已经有了答案: What is the differect between word-wrap and overflow-wrap? [duplicate] (1 个回答) Is t
问题详细描述如下: 给定两个单词(beginWord 和 endWord)和字典的单词列表,找出是否存在从 beginWord 到 endWord 的转换序列,这样: 一次只能更改一个字母 每个转换后
我以前没有使用过邮件合并字段,我发现的所有内容都要求您在能够插入合并字段之前选择一个数据源。我想要做的就是将字段放在 word 文档上,并且在代码使用它之前不要将其合并。我基本上是在创建文档模板。这在
将此代码放置在ThisDocument_Startup之外的Word文档级VSTO解决方案中的某个位置(创建带单击事件的功能区按钮): int zero = 0; int divideByZero =
有没有办法在没有加载项的情况下启动 MS Word(仅此实例)?我只能找到一种方法来完全禁用加载项。 最佳答案 来自Word command line switches documentation ,
有没有办法在没有加载项的情况下启动 MS Word(仅此实例)?我只找到一种方法来完全禁用加载项。 最佳答案 来自Word command line switches documentation ,您
当使用 URI 方案从网页上托管的 word 模板打开新文档时不起作用。 https://msdn.microsoft.com/en-us/library/office/dn906146.aspx 这
我的问题: overflow-wrap: break-word 和 word-break: break-word 有区别吗? 非重复: 这里有一些现有的问题,乍一看可能是重复的,但实际上不是。 Wha
我希望使用 WordNet 从一组基本术语中寻找相似术语的集合。 例如,单词'discouraged' - 潜在的同义词可能是:daunted, glum, deterred, pessimistic
部署 Word Add in 时,发布没有错误。复制文件后出现以下错误。 我没有太多事情要做。这是堆栈跟踪。 ************** Exception Text **************
我需要一个 Java 正则表达式来匹配除某个单词之外的任何单词,同时包含另一个单词。 例如字符串中不能包含Apple,但必须有Peach。 Apple and Peach - Not match Pe
我是一名优秀的程序员,十分优秀!