gpt4 book ai didi

java - 如何在 java 中使用 Apache POI 从 .doc 和 .docx 文件中提取从右到左的文本?

转载 作者:行者123 更新时间:2023-11-29 09:04:50 25 4
gpt4 key购买 nike

我正在开发一个应用程序,它将 .doc 或 .docx 文件作为输入并将它们的文字提取到数据库表中。

我为此尝试了 Apache POI,并成功地使用了从左到右的文本格式(例如英文)的文档。

代码如下:

// FilterDOC Method Which Tacke A Document As Input and Return A Generic 
// List Withs Its Words

public static void parseDoc(File SelectedFile, FileReader in) {
try {
// Create a POI File System object
POIFSFileSystem fs = new POIFSFileSystem(new FileInputStream(
SelectedFile));

// Create a document for this file
HWPFDocument doc = new HWPFDocument(fs);

// Create a WordExtractor to read the text of the word document
WordExtractor we = new WordExtractor(doc);

String ExtractedText = we.getText();

// Removing New Empty Lines
String RemoveEmptyLines = ExtractedText.replaceAll("[\n\r]", "");

// Filtering document of any symbols
String[] Wordlist = RemoveEmptyLines
.split("[:\\,\\.\\}\\?\\{\\[\\]\\‘\\_\\*\\&\\%\\#\\$\\@\\!\\~\\/\\//\\|\\?\\“\\:-\\;\\W\\s+]");

List<String> lines = new ArrayList<String>();

for (String line : Wordlist) {

if (line != null && !line.trim().isEmpty()
&& !line.equals("\\W\\s+")) {
lines.add(line.trim());

}

}

// output the document
for (String string : lines) {

System.out.println(string);}
in.close();



}

catch (IOException e){
System.out.println("IO Exception !!"+ e.getMessage()); }
}

如何将同一个库与具有从右到左文本格式(例如,阿拉伯语)的文档一起使用?

最佳答案

对于出租权集:

sheet.setRightToLeft()

关于java - 如何在 java 中使用 Apache POI 从 .doc 和 .docx 文件中提取从右到左的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15604493/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com