ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)-6ren

ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

37

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命... 我们获得关键词,一般是通过来访页面的url进行分析的.比如 http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 各位肯定知道这个是通过urlencode编码的. 我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现在我们不得不进行手工解码. 网上函数很多,但都是针对于GB2312页面解GB2312.UTF-8的.对于这个,我们可以很轻松的先进行解码,然后根据搜索引擎判断它的编码,如果是UTF-8就再转换为GB2312. 但是由于我的网站是UTF-8页面的.而UTF-8页面我找到的只有解UTF-8字符的urldecode编码的.在这里停顿了很久,最后我只能用最糟糕的方法,把拆分出来的关键词用xmlhttp提交到一个GB2312的ASP页面,然后活得乱码(GB2312)后再进行GB2312 to UTF-8的转换. 下面主要实现代码. Public Function GetSearchKeyword(RefererUrl) ’搜索关键词 if RefererUrl="" or len(RefererUrl)<1 then exit function on error resume next Dim re Set re = New RegExp re.IgnoreCase = True re.Global = True Dim a,b,j ’模糊查找关键词，此方法速度较快，范围也较大 re.Pattern = "(word=([^&]*)|q=([^&]*)|p=([^&]*)|query=([^&]*)|name=([^&]*)|_searchkey=([^&]*)|baidu.*?w=([^&]*))" Set a = re.Execute(RefererUrl) If a.Count>0 then Set b = a(a.Count-1).SubMatches For j=1 to b.Count If Len(b(j))>0 then if instr(1,RefererUrl,"google",1) then GetSearchKeyword=Trim(U8Decode(b(j))) elseif instr(1,refererurl,"yahoo",1) then GetSearchKeyword=Trim(U8Decode(b(j))) elseif instr(1,refererurl,"yisou",1) then GetSearchKeyword=Trim(getkey(b(j))) elseif instr(1,refererurl,"3721",1) then GetSearchKeyword=Trim(getkey(b(j))) else GetSearchKeyword=Trim(getkey(b(j))) end if Exit Function end if Next End If if err then err.clear GetSearchKeyword = RefererUrl else GetSearchKeyword = "" end if End Function Function URLEncoding(vstrIn) dim strReturn,i,thischr strReturn = "" For i = 1 To Len(vstrIn) ThisChr = Mid(vStrIn,i,1) If Abs(Asc(ThisChr)) < &HFF Then strReturn = strReturn & ThisChr Else innerCode = Asc(ThisChr) If innerCode < 0 Then innerCode = innerCode + &H10000 End If Hight8 = (innerCode And &HFF00)\ &HFF Low8 = innerCode And &HFF strReturn = strReturn & "%" & Hex(Hight8) & "%" & Hex(Low8) End If Next URLEncoding = strReturn End Function function getkey(key) dim oreq set oreq = CreateObject("MSXML2.XMLHTTP") oReq.open "POST","http://"&WebUrl&"/system/ShowGB2312XML.asp?a="&key,false oReq.send getkey=UTF2GB(oReq.responseText) end function function chinese2unicode(Str) dim i dim Str_one dim Str_unicode for i=1 to len(Str) Str_one=Mid(Str,i,1) Str_unicode=Str_unicode&chr(38) Str_unicode=Str_unicode&chr(35) Str_unicode=Str_unicode&chr(120) Str_unicode=Str_unicode& Hex(ascw(Str_one)) Str_unicode=Str_unicode&chr(59) next Response.Write Str_unicode end function function UTF2GB(UTFStr) Dim dig,GBSTR for Dig=1 to len(UTFStr) if mid(UTFStr,Dig,1)="%" then if len(UTFStr) >= Dig+8 then GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9)) Dig=Dig+8 else GBStr=GBStr & mid(UTFStr,Dig,1) end if else GBStr=GBStr & mid(UTFStr,Dig,1) end if next UTF2GB=GBStr end function function ConvChinese(x) dim a,i,j,DigS,Unicode A=split(mid(x,2),"%") i=0 j=0 for i=0 to ubound(A) A(i)=c16to2(A(i)) next for i=0 to ubound(A)-1 DigS=instr(A(i),"0") Unicode="" for j=1 to DigS-1 if j=1 then A(i)=right(A(i),len(A(i))-DigS) Unicode=Unicode & A(i) else i=i+1 A(i)=right(A(i),len(A(i))-2) Unicode=Unicode & A(i) end if next if len(c2to16(Unicode))=4 then ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode))) else ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode))) end if next end function function U8Decode(enStr) ’输入一堆有%分隔的字符串，先分成数组，根据utf8规则来判断补齐规则 ’输入:关 E5 85 B3 键 E9 94 AE 字 E5 AD 97 ’输出:关 B9D8 键 BCFC 字 D7D6 dim c,i,i2,v,deStr,WeiS for i=1 to len(enStr) c=Mid(enStr,i,1) if c="%" then v=c16to2(Mid(enStr,i+1,2)) ’判断第一次出现0的位置， ’可能是1(单字节)，3(3-1字节)，4，5，6，7不可能是2和大于7 ’理论上到7，实际不会超过3。 WeiS=instr(v,"0") v=right(v,len(v)-WeiS)’第一个去掉最左边的WeiS个 i=i+3 for i2=2 to WeiS-1 c=c16to2(Mid(enStr,i+1,2)) c=right(c,len(c)-2)’其余去掉最左边的两个 v=v & c i=i+3 next if len(c2to16(v)) =4 then deStr=deStr & chrw(c2to10(v)) else deStr=deStr & chr(c2to10(v)) end if i=i-1 else if c="+" then deStr=deStr&" " else deStr=deStr&c end if end if next U8Decode = deStr end function function c16to2(x) ’这个函数是用来转换16进制到2进制的，可以是任何长度的，一般转换UTF-8的时候是两个长度，比如A9 ’比如：输入“C2”，转化成“11000010”,其中1100是"c"是10进制的12（1100），那么2（10）不足4位要补齐成（0010）。 dim tempstr dim i:i=0’临时的指针 for i=1 to len(trim(x)) tempstr= c10to2(cint(int("&h" & mid(x,i,1)))) do while len(tempstr)<4 tempstr="0" & tempstr’如果不足4位那么补齐4位数 loop c16to2=c16to2 & tempstr next end function function c2to16(x) ’2进制到16进制的转换，每4个0或1转换成一个16进制字母，输入长度当然不可能不是4的倍数了 dim i:i=1’临时的指针 for i=1 to len(x) step 4 c2to16=c2to16 & hex(c2to10(mid(x,i,4))) next end function function c2to10(x) ’单纯的2进制到10进制的转换，不考虑转16进制所需要的4位前零补齐。 ’因为这个函数很有用！以后也会用到，做过通讯和硬件的人应该知道。 ’这里用字符串代表二进制 c2to10=0 if x="0" then exit function’如果是0的话直接得0就完事 dim i:i=0’临时的指针 for i= 0 to len(x) -1’否则利用8421码计算，这个从我最开始学计算机的时候就会，好怀念当初教我们的谢道建老先生啊！ if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i) next end function function c10to2(x) ’10进制到2进制的转换 dim sign, result result = "" ’符号 sign = sgn(x) x = abs(x) if x = 0 then c10to2 = 0 exit function end if do until x = "0" result = result & (x mod 2) x = x \ 2 loop result = strReverse(result) if sign = -1 then c10to2 = "-" & result else c10to2 = result end if end function function URLDecode(enStr) dim deStr,strSpecial dim c,i,v deStr="" strSpecial="!""#$%&’()*+,/:;<=>?@[\]^`{ |}~%" for i=1 to len(enStr) c=Mid(enStr,i,1) if c="%" then v=eval("&h"+Mid(enStr,i+1,2)) if inStr(strSpecial,chr(v))>0 then deStr=deStr&chr(v) i=i+2 else v=eval("&h"+Mid(enStr,i+1,2)+Mid(enStr,i+4,2)) deStr=deStr&chr(v) i=i+5 end if else if c="+" then deStr=deStr&" " else deStr=deStr&c end if end if next URLDecode=deStr end function 许多代码都是网上的.找不到作者. PS:现在暑假就要接受,由于家庭原因我不想留在我的城市.中考到达本地重点.不想说城市名字.否则会招来熟人.只要不在山东的学校算是重点的能不能联系下. QQ:32113739 对程序有极大兴趣,但信息奥赛只活得一等的X名.因为我认为技术不应该在所谓竞赛中体现,就如才能不应该在那些无意义的考试中体现一样.电子作品也弄了各省一等..不过也一般学习一般...所以只要是一般重点就好了..只是不想在离家太近的地方. 现在ASP十分熟练,虽然有些知识缺陷,比如编码问题(汗...),但是网络如此大,我想我不是只有在课本中才能得到所谓的知识.而且现在正在啃ASP.net的书,如果贵校做网站完全可以帮忙. 对新技术十分狂热,虽然被他们称为审美有障碍的人.但我想看到结构偶的程序还不至于吐血. 算了..再贴点. 偶开发D Database+ASP ->xml+xslt->xhtml +css 的算是叫CMS的东西 http://www.joysou.com 也用了CSDN用的FCK编辑器,今天上来才发现换了.不过那个FCK的FIle系统让偶统统改掉. 这个系统在暑假结束前一定会发布.不过很多朋友说易用性有问题...很多人不会xslt.汗... 唉...如果找不到学校.我也许会漂泊,也许会消失吧.当然这不是威胁..只是恨我的城市,恨那里看到的,干过的一切. 。

最后此篇关于ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)的文章就讲到这里了,如果你想了解更多关于ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

37

4

0

文章推荐： ASP常用函数:Delay()

文章推荐： ASP常用函数:Trace()

文章推荐：对象标记具有无效的 'MSWC.MyInfo' ProgID

文章推荐： HTTP_HOST 和 SERVER_NAME 的区别详解

unicode - UTF-8、UTF-16 和 UTF-32
UTF-8、UTF-16 和 UTF-32 之间有何区别？据我所知，它们都将存储 Unicode，并且每个都使用不同数量的字节来表示字符。选择其中之一是否有优势？最佳答案当 ASCII 字符代表
unicode - UTF-8、UTF-16 和 UTF-32 可以存储的字符数是否不同？
好的。我知道这看起来像典型的“他为什么不直接用谷歌搜索或去 www.unicode.org 查一下？”问题，但对于这样一个简单的问题，在检查了两个来源后，我仍然无法回答。我很确定这三种编码系统都支持
utf-8 - 是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符？
是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符最佳答案没有。 UTF-* 是可以对全范围 Unicode 字符进行编码的编码。编码之间的差异在于每个字符使用多少字节。关于u
utf-8 - 是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符？
是否存在可以用 UTF-16 编码但不能用 UTF-8 编码的字符最佳答案没有。 UTF-* 是可以对全范围 Unicode 字符进行编码的编码。编码之间的差异在于每个字符使用多少字节。关于u
c - 在UTF-16、UTF-16BE、UTF-16LE中，UTF-16的字节序是计算机的字节顺序吗？
UTF-16 是一种双字节字符编码。交换两个字节的地址将产生 UTF-16BE 和 UTF-16LE。但我发现在 Ubuntu gedit 文本编辑器中存在名称 UTF-16 编码，以及 UTF-1
utf-8 - 使用 ICU 库的 UTF-16 到 UTF-8
我想将 UTF-16 字符串转换为 UTF-8。我通过 Unicode 发现了 ICU 库。我在转换时遇到问题，因为默认设置是 UTF-16。我试过使用转换器: UErrorCode myError
utf-8 - 为什么 USB 对字符串使用 UTF-16(为什么不使用 UTF-8)
UTF-16 需要 2 个字节，UTF-8 需要 1 个字节。而USB是面向8bit的，UTF-8更自然。 UTF-8 向后兼容 ASCII，而 UTF-16 则不然。 UTF-16 需要 2 个字
javascript - UTF-8 与 UTF-16 和 UTF-32 转换混淆
我对将 unicode 字符转换为十六进制值有点困惑。我正在使用这个网站获取字符的十六进制值。 ( https://www.branah.com/unicode-converter ) 如果我输入“
utf-8 - UTF-8编码的文件大小？
我已经用UTF-8编码创建了一个文件，但是我不了解其在磁盘上占用的大小的规则。这是我的完整研究: 首先，我创建了一个带有印地语字母“'”的文件，Windows 7上的文件大小为 8个字节。现在带有两
utf-8 - UTF-8中的字符串到字节数组？
如何将WideString(或其他长字符串)转换为UTF-8中的字节数组？最佳答案这样的功能将满足您的需求: function UTF8Bytes(const s: UTF8String): TB
utf-8 - UTF-8中的代理字符是什么？
我有一个奇怪的验证程序，用于验证utf-8字符串是否是有效的主机名(PHP中的Zend Framework主机名valdiator)。它允许IDN(国际化域名)。它将比较每个子域与由其十六进制字节表示
unicode - utf-8 null 和 utf-16/utf-32 null 一样吗？
在 utf16 和 utf32 中，一个字节的零是否意味着空？就像在 utf8 中一样，还是我们需要 2 个和 4 个字节的零来相应地在 utf16 和 utf32 中创建 null？最佳答案在
mysql - "AddDefaultCharset utf-8"指定的 Apache utf-8 字符集是否是完整的 utf-8？
这是基于我的观察，对于 mysql，默认字符集 utf8 有点误导，它不支持完整的 Unicode，因为它无法存储四字节 UTF-8 编码的字符。它实际上是 utf8mb4 字符集，它是完整的 Uni
c++ - 在 C++ 内部使用 UTF-8、UTF-16 和 UTF-32？
我只有处理 ASCII(单字节字符)的经验，并且阅读了很多关于人们如何以不同方式处理 Unicode 的帖子，这些帖子提出了他们自己的一系列问题。此时我对 Unicode 的了解非常有限，我读到过U
c++ - C++ 是否支持 UTF-8、UTF-16 和 UTF-32 以外的字符编码之间的转换？
我明白 std::codecvt在 C++11 中执行 UTF-16 和 UTF-8 之间的转换，并且 std::codecvt执行 UTF-32 和 UTF-8 之间的转换。是否可以在 UTF-8
utf-8 - Babel 有类似 trivial-utf-8 :write-utf-8-bytes? 的功能吗
我正在编写一个 HTTP 服务器并使用 trivial-utf-8:write-utf-8-bytes 来响应请求。我听说Babel就像trivial-utf-8但效率更高，所以我想试一试。搜索了一段
c# - UTF-8 或 UTF-16 或 UTF-32 或 UCS-2
我正在设计一个新的 CMS，但想要设计它来满足我 future 的所有需求，比如多语言内容，所以我认为 Unicode (UTF-8) 是最好的解决方案但是通过一些搜索我得到了这篇文章 http:/
.net - 如何将 UTF-8 编码为 UTF-16 的 xml 字符串转换为 UTF-16？
例如，假设我在字符串中有以下 xml: 如果我尝试将其插入到带有 Xml 列的 SQL Server 2005 数据库表中，我将收到以下错误(我使用的是 EF 4.1，但我认为这无关紧要): XM
python - "utf-8-sig"是否适契约(Contract)时解码 UTF-8 和 UTF-8 BOM？
我正在使用 Python CSV 库读取两个 CSV 文件。一种使用 UTF-8-BOM 编码，另一种使用 UTF-8 编码。在我的实践中，我发现使用“utf-8-sig”作为编码类型可以读取这两个
php - mysql_real_escape_string 是否容易受到无效的 UTF-8 攻击，例如超长的 UTF-8 或格式错误的 UTF-8 序列？
假设我的数据库设置如下以使用 utf-8(mysql 中的完整 4mb 版本) mysql_query("SET CHARACTER SET utf8mb4"); mysql_query("SET N

首页

博学

6Ren·AI

商城

ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)