gpt4 book ai didi

java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本?

转载 作者:太空宇宙 更新时间:2023-11-04 09:25:07 28 4
gpt4 key购买 nike

我想计算.fdt/.fdx/.fdxt文件中的单词数

我将 .fdxt 转换为 .html,然后进一步解析它。它在某些情况下取得了成功,但并非全部。

    String html="";

Scanner sc = new Scanner(new File("/home/de-10/Desktop/1.html"));
while(sc.hasNextLine()) {
html+=sc.nextLine();
}
sc.close();

System.out.println(html);

Document doc = Jsoup.parse(html.toString());
String data = doc.text();
System.out.println(data);

Scanner sc1 = new Scanner(new String(data));
int wordCount=0;
while(sc1.hasNext()) {
sc1.next();
wordCount++;
}
sc1.close();

System.out.println("");
System.out.println("**********");
System.out.println("WordCount: "+wordCount);
System.out.println("**********");
System.out.println("");

我正在寻找一些最佳解决方案。

最佳答案

你说,“在某些情况下它是成功的,但不是全部”。因此,我建议在计数之前删除文本中的标点符号。

int wordCount = Jsoup.parse(html).text().replaceAll("\\p{Punct}", "").split("\\s+").length;

关于java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57802080/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com