java - 我如何通过 tika 检测波斯语网页？-6ren

java - 我如何通过 tika 检测波斯语网页？

转载作者：搜寻专家更新时间：2023-10-31 19:34:47

24

4

我需要一个示例代码来帮助我通过 apache tika 工具包检测波斯语网页。

 LanguageIdentifier identifier = new LanguageIdentifier("فارسی");
        String language = identifier.getLanguage();

我已经下载了 apache.tika jar 文件并将它们添加到类路径中。但是这段代码给出了波斯语的错误，但它适用于英语。如何将波斯语添加到 tika 的 languageIdentifier 包中？

最佳答案

Tika 尚未附带波斯语的语言配置文件。从 1.0 版开始 27 languages are supported开箱即用:

languages=be,ca,da,de,eo,et,el,en,es,fi,fr,gl,hu,is,it,lt,nl,no,pl,pt,ro,ru,sk,sl,sv,th,uk

在您的示例中，输入被误检测为 li(立陶宛语)，距离为 0.41，高于确定性阈值 0.022。查看source code有关 LanguageIdentifier 内部工作的更多信息。

波斯语 ( Persian, ISO 639-1 2-letter code fa ) 默认不被识别。如果你想让 Tika 识别另一种语言，你必须先创建一个语言配置文件。

为此，需要执行以下步骤:

为您的语言查找文本语料库。我找到了 Hamshahri Collection .这应该足够了。下载语料库或其中的一部分，并使用 XML 创建纯文本文件。
为语言标识符创建一个 ngram 文件。这可以使用 TikaCLI 来完成:
java -jar tika-app-1.0.jar --create-profile=fa -eUTF-8 fa-corpus.txt这将是一个名为 fa.ngp 的文件，其中包含 n-gram。
配置 Tika，使其识别新语言。要么使用 LanguageIdentifier.initProfiles() 以编程方式执行此操作，要么将名称为 tika.language.override.properties 的属性文件放入类路径中。确保 ngram 文件也在类路径中。

如果您现在运行 Tika，它应该可以正确检测您的语言。

更新:详细介绍了创建语言配置文件所需的步骤。

关于java - 我如何通过 tika 检测波斯语网页？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9044916/

24

4

0

文章推荐： ios - IB Designables 无法更新自动布局状态

文章推荐： java重用一个执行器

文章推荐： java log4j 选择记录到哪个文件

文章推荐： java - Play Framework - CRUD 命名约定

java - 的意思？ java 语
这个问题已经有答案了: What is the Java ?: operator called and what does it do? (17 个回答) 已关闭 8 年前。 ltVal = node
java - 我如何嵌套这个条件语句？ java 语
我是一名 Java 学生，我在嵌套该程序的条件语句时遇到问题 Exercise CozaLozaWoza (Loop & Condition): Write a program called Coza
java - 如何将输入句子的每个字母大写？ ( java 语)
首先，我想给出用户想要留下的句子的数量，当他的写作结束时，我的代码开始将每个单词的第一个字母大写(在 Java 中)。 import java.util.Scanner; public class I
java - 有没有办法在基类中使用重写函数？ ( java 语)
我尝试在基类中实现一个函数，该函数使用子函数(defiend 作为基类中的抽象函数)。我认为一个例子可以最好地说明这个问题。 abstract class Animal{ public void
java - 如何重复一段文本中的每个单独字母？ java 语
就像在口吃中一样，如果文本为“dean”并且乘数为 3，则结果将是“dddeeeaaannn”。 public static void repeatLetters() { String text
java - 如何使这个二叉搜索树工作？？？ ( java 语)
public void insert(int data) { if (root == null) root = new AVLNode(data); else {
java - 为什么XPATH无法访问该标签的值？ ( java 语)
我是 XPATH 的新手，并且遇到以下问题: 我有以下代码片段，但似乎无法按我的预期工作: String XML = cdataContent;
java - 有符号整数类型的签名存储在哪里？ ( java 语)
例如，Java 数据类型字节将数据从 -128 到 127 存储在单个字节中。为了能够区分 - 1 到 -128 从 0 到 127 将需要额外的数据，这些数据将采用数据类型覆盖其分配的存储空间。不可
java - 如何检查字符串是否包含指定字符以外的字符。 ( java 语)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9
java - 如何限制排列的生成？ ( java 语)
Dataset: P1: Lion, Snow, Chair P2: Min: 0, Max: 28 P3: Min: 34, Max is 39. 我的程序以一系列数组列表的形式提供上述数据集(P
java - 如何模拟不同的网络场景？ ( java 语)
我正在构建一个应该 24/7 全天候运行的客户端服务器应用程序。应用程序指定检测网络故障(使用心跳)并尽快重新连接到服务器。我做的第一个测试只是停止客户端或服务器，然后重新启动，一切正常。我想知道是
java - 这个的编译时类型是什么？ ( java 语)
我怀疑它是编写它的类的类型，但我不是 100% 确定，有人可以证实我的怀疑并可能提供对定义此行为的 Java 语言规范的引用吗？假设类 A 有一个方法 a()，它在其主体中使用了 this 关键字，
语: how to enforce an interface on a template function
我已经在谷歌上搜索了两个小时，但没有成功。如果我有一个模板函数并且我想在模板类型上强制执行一个接口(interface)，我该怎么做？例如。 void doStuff(T)(bool param)
java - 使用不带replaceAll()的循环打印不带元音的UI； java 语
我正在尝试获取用户输入并对其进行修改，以便打印不带任何元音的字符串。我已经能够使用以下代码成功完成此操作。 Scanner in = new Scanner(System.in); Syste
java - 线程.sleep(); java 语
每当我使用 Thread.sleep(); 时在 do while 循环中，提示告诉我，“在循环中调用 Thread.sleep 可能会导致性能问题。”我从许多其他网站和书籍上听到过这一点。我可以用什
java - 生成一个范围内的随机数。无溢出。 java 语
请不要将其视为以下内容的重复项而将其忽略: How to generate random positive and negative numbers in java 我需要使用带有种子的随机数生成器。
java - 如何选择范围内的随机数，但加权到该范围的一部分？ ( java 语)
我想在一个数字范围内选择随机数，但权重偏向该范围的一部分。例如: 选择1-10之间的随机数对其进行加权，使 1-5 比 6-10 的可能性高 20% 这可能吗？我该怎么做？最佳答案这取决于您希望
java - 如何初始化 TIME 数组？ java 语
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
java - 如何更改或设置新的 Activity 启动器应用程序？ ( java 语)
我有一个付款 Activity 和启动 Activity ，它在用户购买后显示内容应用程序。付款 Activity 是Manifest.xml中的默认启动器，我想将启动器 Activity 设置为启动
arrays - 语: Construct an array from a pointer and length
我有一个指针和长度。如何从他们那里得到一个动态数组？最佳答案设ptr是一个指针，len是一个长度，那么很容易如下: ptr[0..len] 请注意，这不会复制数组，而是就地使用数据。如果要复制数

首页

博学

6Ren·AI

商城

java - 我如何通过 tika 检测波斯语网页？