apache - Apache Tika 能够提取中文、日语等外语吗？-6ren

apache - Apache Tika 能够提取中文、日语等外语吗？

转载作者：行者123 更新时间：2023-12-02 01:11:58

26

4

Apache Tika 能够提取中文、日语等外语吗？

我有以下代码:

    Detector detector = new DefaultDetector();
    Parser parser = new AutoDetectParser(detector);
    InputStream stream = new ByteArrayInputStream(bytes);
    OutputStream outputstream = new ByteArrayOutputStream();
    ContentHandler textHandler = new BodyContentHandler(outputstream);
    Metadata metadata = new Metadata();
    // Set<String> langs = LanguageIdentifier.getSupportedLanguages();
    // metadata.set(Metadata.CONTENT_LANGUAGE, lang);
    // metadata.set(Metadata.FORMAT, hint);
    ParseContext context = new ParseContext();
    try {
        parser.parse(stream, textHandler, metadata, context);
        String extractedText = outputstream.toString();
        return extractedText;
    } catch (IOException e) {
        e.printStackTrace();
    } catch (SAXException e) {
        e.printStackTrace();
    } catch (TikaException e) {
        e.printStackTrace();
    }

如果输入的是包含汉字的doc文件，则每个汉字将被提取为“？”。

非常感谢!

最佳答案

Apache Tika 能够从其支持的文件格式中提取 unicode 文本。只要文件格式可以存储unicode文本(例如中文或日文字符)，Apache Tika就可以提取它

Tika 还为此提供了许多单元测试，以验证其是否有效。其中一项测试使用 this sample chinese email 。如果使用命令行 Tika 应用程序，并获取前几行，我们会看到它正在工作:

$ java -jar tika-app-1.4.jar --text testMSG_chinese.msg | head
Alfresco MSG format testing ( MSG 格式測試 )
    From
    Tests Chang@FT (張毓倫)
    To
    Tests Chang@FT (張毓倫)
    Recipients
    tests.chang@fengttt.com

或者用这个Japanese document :

$ java -jar tika-app-1.4.jar --text testRTFJapanese.rtf | head -2
ゾルゲの処刑記録、
ゾルゲと尾崎、淡々と最期

您只需确保生成的任何文本输出都以合适的编码存储(例如 utf8)，并且用于显示它的字体支持这些字形!

关于apache - Apache Tika 能够提取中文、日语等外语吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15638944/

26

4

0

文章推荐： java - SIGAR api 抛出 NoClassDefFoundError

文章推荐： ubuntu-12.04 - MRTG : ERROR: did not find any matching data in cfg file

文章推荐： scikit-learn - 多标签分类的特征选择(scikit-learn)

Flash:不嵌入字体的动态文本字段上的抗锯齿字符，日语
我正在尝试在日本网站上的 flash 动态文本字段上实现抗锯齿。这些文本字段的内容不是固定数据。我没有嵌入字体的选项，因为嵌入所有字符会导致非常重的 swf 文件(3000kb+ 仅用于字体)。这是
日语 Unicode 字体
我正在创建一个游戏。我有一些带有文本的用户界面。最近我们想添加日语版本，但我遇到字体问题。我使用 stb_freetype 来光栅化字体，并且我支持 Unicode，所以这应该不是问题。但大多数字体似
javascript - 日语/字符编程技巧
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
javascript - 如何在html中渲染非英文字符(日语，中文)
我知道我的问题已经在这里有了解决方案。但我只想具体说明我的情况。我有一个 json 对象，其中包含非英语字符。例如。 {“my_chinise_name”:“吉米”}。该对象将通过 javascr
Tesseract OCR 加载语言 - 日语
我刚刚安装了 Tesseract OCR 并在运行命令 $ tesseract --list-langs 后输出仅显示 2 种语言，eng和osd 。我的问题是，如何加载另一种语言，在我的例子中是日语
unicode - 日语 ASCII 代码
在哪里可以获得与日语汉字、平假名和片假名字符对应的 ASCII 代码列表。我正在做一个java函数和Javascript来确定它是否是日语字符。它的 ASCII 码范围是多少？最佳答案 ASCII代
jquery - 文本框中仅允许半角片假名(日语)字符
在我的 Rails 应用程序中，我有一个像这样的文本字段 @disabled_field %> 我正在使用 jQuery 来验证此文本字段仅接受 half width katakana字符(Unic
javascript - 验证多语言的 url - 日语
我有在表单中添加网站选项的功能。用户可以在这里写域/url，这个域/url 可以是英语也可以是日语，如下所示。 www.google.com www.南极星.com I am using follo
php - 日语 "Enter"键的搜索功能
我遇到了日语问题。我有一个允许用户搜索数据的表格。当用户输入要搜索的字符串并按下“Enter”键时，搜索功能就会执行。我的代码是: $('#formSearch input').keyup(funct
javascript - 我的正则表达式如何支持中文、日语、法语等多种语言
我是 Java 脚本的新手。我写了一个正则表达式，它允许用户名或电子邮件地址作为某些条件的输入，例如应接受 6-50 个字符不允许空格或空白不应允许 2 个 @ 符号并且可以接受超过 1 个 .(点)
c++ - 无法从文件中读取 unicode(日语)
您好，我有一个包含日语文本的文件，保存为 unicode 文件。我需要从文件中读取信息并将信息显示到标准输出。我正在使用 Visual Studio 2008 int main() {
java - Android 文本转语音不适用于/日语
我正在使用在 http://mobile.tutsplus.com/tutorials/android/android-sdk-using-the-text-to-speech-engine/ 中找到
c# - 如何识别网站的内容语言，如英语、日语、中文等
(我正在开发一个网站来抓取 ASP.NET 中的其他网站内容。我能够正确获取内容，但如何根据该内容识别使用的是哪种语言。例如英语、印地语、中文, 日语等我使用了以下代码。 HttpWebReques
.net - 日语、中文和韩语等语言的 KeyUp/KeyDown 替代方案？
在 TextBox 中，我无法捕获具有特殊 IME 的语言(例如日语和韩语)的击键，因为 IME 不断地决定不同的字符或音节。实际上，大多数情况下 KeyUp/KeyDown 都不会触发(如果 IME
MySQL 在搜索 'ずる' 时返回 'する'(日语)
我有一个包含日语单词的数据库。我很困惑，因为这个查询: SELECT japanese FROM my_table where japanese = 'する' 返回两个结果: ずるする我试图查看
javascript - 日语 CSV 到 JSON 解析错误
我想将 CSV 文件解析为 JSON 文件。我已经解析了它，但它没有得到日语字符。我正在使用 Papa Parser 将 CSV 解析为 JSON。这是我的代码:- Papa.parse("htt
日语 Windows 操作系统上的 C# 应用程序 - 将拉丁语显示为全角字符
我有一个 C# winform 应用程序，它安装在日文 windows 7 上。一些标签以非常宽的字体显示，导致它们无法匹配 from 的大小。经过一些研究，我被告知这可能是半角/全角问题。有没有办
mysql - MySql 全文搜索是否适用于非拉丁语言(希伯来语、阿拉伯语、日语……)
MySql 全文搜索是否适用于非拉丁语言？ (希伯来语、阿拉伯语、日语……) 添加:做了一些测试...希伯来语有一些问题。示例:名称 מוסəנזון 的发音与 מושəנזון 相同，但搜索不会找到
c++ - 在文本文件上调用 ReadFile，得到奇怪的(日语？)字符
我使用下一个代码从句柄为 hFile 的文件中读取所有元素行得通，而且我用 GetFileSize(hFile, NULL) 得到了它的大小. _TCHAR* text = (_TCHAR*)mall
java - Hibernate Validation i18n(日语)显示不佳(乱码)
验证按预期进行，但消息仅以英语显示良好。我使用自己的日语消息。问题是我收到了日语的乱码验证消息。我将validation-api-1.0.0.GA.jar与hibernate-validator-4

首页

博学

6Ren·AI

商城

apache - Apache Tika 能够提取中文、日语等外语吗？