gpt4 book ai didi

python - 如何转换包含在 HTML 链接中的 Unicode?

转载 作者:太空宇宙 更新时间:2023-11-04 01:50:45 25 4
gpt4 key购买 nike

我有以下 HTML 代码:

<a href="http://&#65346;&#65345;&#65348;&#65294;&#65347;&#65359;&#65357;">Bad URL</a>

这是一个字符串 \uff42\uff41\uff44\uff0e\uff43\uff4f\uff4d 这两个Chrome 和 Firefox 认为 http://bad.comhttp://bad.com相同.

我需要将收集到的 URL 与列入白名单的 URL 列表进行比较。

如何转换 http://bad.comhttp://bad.com使用 Python?浏览器会替换“容易混淆”的字符吗?

或者是否可以比较两个 URL?

最佳答案

您可以使用 unicodedata :

import unicodedata

link = 'http://bad.com'
normalized = unicodedata.normalize('NFKC', link)

什么是 'NFKC' 你可以在 official docs 中找到.

关于python - 如何转换包含在 HTML 链接中的 Unicode?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58080492/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com