java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本？-6ren

java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本？

转载作者：太空宇宙更新时间：2023-11-04 09:25:07

28

4

我想计算.fdt/.fdx/.fdxt文件中的单词数

我将 .fdxt 转换为 .html，然后进一步解析它。它在某些情况下取得了成功，但并非全部。

    String html="";

    Scanner sc = new Scanner(new File("/home/de-10/Desktop/1.html"));
    while(sc.hasNextLine()) {
        html+=sc.nextLine();
    }
    sc.close();

    System.out.println(html);

    Document doc = Jsoup.parse(html.toString());
    String data = doc.text();
    System.out.println(data);

    Scanner sc1 = new Scanner(new String(data));
    int wordCount=0;
    while(sc1.hasNext()) {
        sc1.next();
        wordCount++;
    }
    sc1.close();

    System.out.println("");
    System.out.println("**********");
    System.out.println("WordCount: "+wordCount);
    System.out.println("**********");
    System.out.println("");

我正在寻找一些最佳解决方案。

最佳答案

你说，“在某些情况下它是成功的，但不是全部”。因此，我建议在计数之前删除文本中的标点符号。

int wordCount = Jsoup.parse(html).text().replaceAll("\\p{Punct}", "").split("\\s+").length;

关于java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57802080/

28

4

0

文章推荐： python - 如何在综合嵌套列表中向文本文件添加换行符？

文章推荐： python - 将列表的元素集成到列表的列表中

文章推荐： java - 如何在 Spring MVC Controller 中接收多部分/表单数据？

文章推荐： python - 将行转为列，同时根据组展平数据框

windows - 非交互式 "git clean -fdx"
我正在构建一个处理传入文件包的东西，但我有一个相当严重的问题，即我无法清理传入数据，直到它能够中断处理，并且它以一种简单的方式破坏它重新启动进程并不能解决问题。我目前最好的解决方案是 git cle
java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本？
我想计算.fdt/.fdx/.fdxt文件中的单词数我将 .fdxt 转换为 .html，然后进一步解析它。它在某些情况下取得了成功，但并非全部。 String html=""; S
git - 我可以恢复已删除的文件(撤消 `git clean -fdx` )吗？
我正在按照 making github pages 上的说明进行操作，而忘记向下移动到我的 git 子目录。结果，我只是用 git clean -fdx 破坏了整个文档目录。有什么办法可以消除这个可
Java:Lucene 索引大小为 0kb 的空 _0.fdt 和 _0.fdx 文件
我已经浏览过互联网，但我似乎无法使用正确的术语进行搜索。我的问题是 Lucene 索引大小为 0kb 的空 _0.fdt 和 _0.fdx 文件。这意味着它没有索引我的数据。这是我的代码: priv

首页

博学

6Ren·AI

商城

java - 有没有办法从java中读取.fdt/.fdx/.fdxt ftile中的文本？