gpt4 book ai didi

java - 从字符串中删除所有格式、编号列表、项目符号列表、空格、制表符等

转载 作者:行者123 更新时间:2023-12-02 07:41:05 25 4
gpt4 key购买 nike

我正在制作一个自定义文档比较工具。我正在将 Word 文档的内容与网页内容进行比较。我正在解析网页,只是删除文本并将其与我从 Word 文档复制到 JTextarea 的文本进行比较。

我想做的就是比较文本,确保没有拼写错误或漏词。当我解析网页时,我没有得到任何格式,例如编号列表或项目符号列表。我的问题是,当我将 Word 文档的内容复制到 jtextarea 时,它会保留所有编号列表、项目符号列表等。

我想要的是以下文本示例:

Solution 1: Restart your network hardware

If Xbox LIVE performance seems slow, try restarting your network hardware. Here’s how:

  1. Turn off your Xbox 360 console and any network hardware (for example, your modem and router).
  2. Wait 30 seconds.
  3. Turn on your modem, and wait one minute.

并将其变成:

Solution 1: Restart your network hardware
If Xbox LIVE performance seems slow, try restarting your network hardware. Here’s how:
Turn off your Xbox 360 console and any network hardware (for example, your modem and router).
Wait 30 seconds.
Turn on your modem, and wait one minute.

我已经有一个正则表达式来删除所有空白行,我只是不知道应该如何处理删除额外的选项卡、列表样式等。有人有任何建议吗?

最佳答案

您可以尝试以下启发式方法:

  • 将所有制表符(等)替换为空格(请参阅 String.replaceAll() )
  • 将行开头的所有空格后跟数字后跟点替换为空格(请参阅正则表达式:|^ *\d*\\.| -- carret-空格-星-反斜杠-d-反斜杠-反斜杠-点)
  • 将所有一系列空格(正则表达式:| +| -- space-spaces-plus)替换为一个空格(以删除多余的空格)--将此保留为最后一步

如果遇到其他不想要的模式,您可以在那里添加任何其他替换逻辑

注意:我在正则表达式周围添加了 | 以使前导空格更容易看到,但当您输入代码时它们不是正则表达式的一部分。

关于java - 从字符串中删除所有格式、编号列表、项目符号列表、空格、制表符等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11580539/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com