gpt4 book ai didi

html - HTML 源代码中的这些奇怪字符是什么?

转载 作者:搜寻专家 更新时间:2023-10-31 08:44:15 24 4
gpt4 key购买 nike

我的 friend 经营着一个网站,收到一封来自 Google Safesearch 的电子邮件,通知他托管了一个网上诱骗网页。原来他的 cPanel 被暴力破解(弱密码),他们将一些页面上传到他的服务器上。他告诉了我这件事,我想看看有多复杂。

在许多文件中,某些单词/文本部分很奇怪。它们在网络浏览器中显示完美,但在 HTML 中杂乱无章。我想知道有没有人能告诉我这是什么?

例子:

<title>WеlÑоmе tо еВаy: Sign in</title>
<span class="txtbox_title">Раsswоrd</span>
<a class="three" href="#">Fоrgоt yоur

同样值得注意的是,整个页面中的正常文本也能完美显示。

我假设这是为了停止检测页面中的某些词,但我不确定。任何信息都会很棒。

编辑:最初被标记为 PHP。我意识到它可能不应该被删除。乖一点, children 。

编辑编辑:为了清楚起见,这是一个针对 eBay 用户的网络钓鱼页面。

我在原贴贴出的例子是(按顺序):

eBay: Sign In
Your Password
Forgot your [password]

因此,我不认为它是任何类型的恶意软件,而是一种加密文本以对抗 Chrome 等浏览器中的检测的方法(我假设在其算法中检测“热门”词)。

最佳答案

他们使用 UTF-8 编码西里尔字母和其他可能因为与普通拉丁字母在视觉上相似而选择的字符。您正在使用不将数据解释为 UTF-8 而是将数据解释为 Latin 1 编码的编辑器查看页面。

例如,您看到的“о”实际上是两个字节,0xD0 0xBE。当被解释为 UTF-8 数据时(浏览器在这里所​​做的),它们表示“о”U+043E 西里尔小写字母 O。它在视觉外观上与常见的拉丁字母“o”相同(在包含两者的任何字体中)字母),但由于属于不同的书写系统而被编码为单独的字符。对于任何程序,它们都是截然不同的字符,除非程序已单独编码以处理“混淆”。

这种混淆通常是出于各种原因故意造成的。您可能正确地假设这里的目的是“停止检测页面中的某些词”。当例如“忘记”是使用西里尔字母 o (Fоrgоt) 编写的,正常的查找操作会在搜索“忘记”时找到它。

关于html - HTML 源代码中的这些奇怪字符是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28838861/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com