java - Tidy 断开与非拉丁字符的链接-6ren

java - Tidy 断开与非拉丁字符的链接

转载作者：行者123 更新时间：2023-11-30 11:58:55

30

4

我使用 Java 库 Tidy 来清理 html 代码。一些代码包含带有俄文字母的链接。例如

<a href="http://example.com/Русский">link with Russian letters</a>

我知道必须对“Русский”进行转义，但我从用户那里得到了这个 html。我的工作是将其转换为 XHTML。

我认为 tidy 试图转义非拉丁字母，但结果我得到了

<a href="http://example.com/%420%443%441%441%43A%438%439">link with Russian letters</a>

这不正确。正确的版本是

<a href="http://example.com/%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9">link with Russian letters</a>

Java代码是

private static Tidy getTidy() {
    if (null == tidy) {
      tidy = new Tidy();
      tidy.setQuiet(true);
      tidy.setShowErrors(0);
      tidy.setShowWarnings(false);
      tidy.setXHTML(true);
      tidy.setOutputEncoding("UTF-8");
    }
    return tidy;
}

public static String sanitizeHtml(String html, URI pageUri) {
    boolean escapeMedia = false;
    String ret = "";
    try {
      Document doc = getTidy().parseDOM(new StringReader("<body>" + html + "</body>"), null);

      // here I make some processing

      // string output
      ByteArrayOutputStream out = new ByteArrayOutputStream();
      Node node = doc.getElementsByTagName("body").item(0);
      getTidy().pprint(node, out);
      ret = out.toString().trim();
    }
    catch (Exception e) {
      ret = html;
      e.printStackTrace();
    }

    return ret;
}

最佳答案

这是一种硬编码行为，可能是一个错误。当他们应该使用 UTF-8 时，他们使用 UTF-16 来转义 URL 中的非 ASCII 字符。参见 org/w3c/tidy/AttrCheckImpl.java .

关于java - Tidy 断开与非拉丁字符的链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2859984/

30

4

0

文章推荐： java - 如何创建自定义注释并使用 APT 对其进行处理？

文章推荐：带有参数的 VBA 脚本的 Java Runtime Exec

文章推荐： java - 按时间间隔计算日内烛台

文章推荐： java - 根据操作系统选择 SWT 库

iOS检测蓝牙连接/断开
是否可以在蓝牙设备连接到 iOS 或从 iOS 断开连接时收到通知，即使我的应用程序处于后台？在 Android 上，我使用 ACTION_ACL_CONNECTED 和 ACTION_ACL_DIS
delphi - 如何检测USB设备何时连接/断开？
我对使用 Delphi 使用 USB 设备感到不舒服，并且对编写设备驱动程序的细节几乎一无所知(尽管我在学习使用 GoASM 进行汇编时遇到过一些)。该设备可以是 USB 调制解调器或 USB 打印
java - 检查网络连接是否已连接/断开
我正在使用 java/servlet 和前端 JSP 开发 Web 应用程序。我的页面为用户显示一些信息。是否有任何适当的方法来检查网络连接是否处于 Activity 状态(开/关)以及支持所有浏
c# - 断开/关闭客户端
这个问题在这里已经有了答案: C# -- TcpListener.Start() causing SocketException with message "Only one usage of ea
c++ - 检测音频设备的到达/断开
我想向我的应用程序添加功能，以允许在 Windows 操作系统上检测播放/捕获设备的到达和断开连接。就像在 Skype 中一样 - 当您拔下设备时 - 它会显示设备丢失的通知，例如要求您选择另一个。
java - 断开 HttpClient
如何断开 org. apache. http. client.HttpClient 对象？我正在这样创建它，但它没有任何 disconnect() 或 getHttpConnectionManage
c# - 我需要一个事件来检测互联网连接/断开
我们正在开发一个 .NET 应用程序，其中一个要求是监视系统是否连接到 Internet。我们能够获得“以太网电缆断开连接”的 .NET 事件，但如果调制解调器被重置，则不会触发此事件。我不想一直通
Firefox 断开 websockets 连接以获得自签名证书
我正在尝试与使用自签名证书的后端服务器建立 websocket 连接。在 Firefox 中，我为自签名证书添加了一个异常(exception)。但是我的 websocket 连接 wss://连接
api - 断开 VBA 用户窗体与父应用程序的连接
我正在使用由 Excel 生成的用户窗体来修改 PowerPoint 演示文稿(这是避免需要启用宏的电子表格的迂回方法)。该表单工作得很好，但每次我将焦点放在它上时，Excel 应用程序都会获得焦点(
video - 断开 Twilio 视频
您好，我成功地开始了视频通话，但是当我断开视频通话时，摄像头 LED 指示灯仍然亮着。我怎样才能完全断开通话？ Video.createLocalVideoTrack().then(track =>
video - 断开 Twilio 视频
您好，我成功地开始了视频通话，但是当我断开视频通话时，摄像头 LED 指示灯仍然亮着。我怎样才能完全断开通话？ Video.createLocalVideoTrack().then(track =>
c# - 断开 TCPClient 并在另一端看到
我正在尝试断开客户端与服务器的连接，但服务器仍将其视为已连接。我找不到解决这个问题的方法，关机、断开连接和关闭都不起作用。我与客户端断开连接并检查服务器的一些代码: 客户: private vo
ios - 从上下文中分离(断开)核心数据实体
我正在使用 magic record 来完成我所有的核心数据工作。一切都很好，除了有时我在后台进行更新时我需要从上下文中分离或断开实体。例如 ButtonList = [Buttons MR_fi
c# - 鼠标 Hook 断开
我正在尝试实现一个颜色选择器，它从屏幕上各处的像素中获取颜色。为此，我计划使用全局鼠标 Hook 来监听 WM_MOUSEMOVE，以便在鼠标四处移动时更新颜色，并监听鼠标点击以确认 (WM_LBUT
C# TLS session 断开
我有一个使用 C# 编写的 TLS 连接的客户端/服务器 TCP 场景。客户端在安静并恢复后无法传递消息(不活动时间约为 25 分钟)。但如果我让客户聊天(每 30 秒)，就没有问题。客户端和服务
C# 如何检测互联网连接/断开(带有事件)？
我编写的这段代码完美运行，但我担心每 2 秒执行一次 ping 操作会消耗太多资源，或者可能导致互联网连接出现一些问题。 new Thread(() => {
android - 断开 MediaController 的正确方法是什么？
关闭带有附加 MediaPlayer 的 MediaController 的正确方法是什么？您不能执行 mediaController.setMediaPlayer(null) - 立即调用 upd
java - 在Java中，是否可以监听外部监视器的连接/断开？
从我的笔记本电脑上断开外接显示器后，我丢失了一些应用程序，因为断开连接的显示器仍设置为默认显示器。我的一些窗口试图在断开连接的显示器上显示。我有一个解决方法，例如右键单击应用程序图标并选择移动，然后
mongodb - 断开 MongoDB 节点并独立运行
是否可以将分片节点从分片集中取出并独立运行？例如，每个分片都有一个特定的客户。谢谢。最佳答案是的，这是可能的。 MongoDB“主”节点不知道分片。只有路由器(和配置服务器)知道。如果您使用正
database - 断开 Cassandra 中的节点
我正在探索 Cassandra 及其复制系统。为此，我在本地创建了 3 个节点并测试了不同的场景。我想暂停节点之间的通信，用相同的键写入不同的值，然后观察它们将决定什么。那么问题来了:如何限制节点在

首页

博学

6Ren·AI

商城

java - Tidy 断开与非拉丁字符的链接