gpt4 book ai didi

python - libxml 解决 python 的 utf 编码问题还是我的问题?

转载 作者:太空宇宙 更新时间:2023-11-03 19:37:00 25 4
gpt4 key购买 nike

大家好,我正在尝试使用 python 的 libxml 从网页中提取“META”描述。当它遇到 UTF 字符时,它似乎会阻塞并显示垃圾字符。然而,当通过正则表达式获取数据时,我得到了 unicode 字符。我对 libxml 做错了什么吗?

谢谢

''' test encoding issues with utf8 '''

from lxml.html import fromstring
from lxml.html.clean import Cleaner
import urllib2
import re

url = 'http://www.youtube.com/watch?v=LE-JN7_rxtE'
page = urllib2.urlopen(url).read()


xmldoc = fromstring(page)
desc = xmldoc.xpath('/html/head/meta[@name="description"]/@content')
meta_description = desc[0].strip()

print "**** LIBXML TEST ****\n"
print meta_description


print "**** REGEX TEST ******"
reg = re.compile(r'<meta name="description" content="(.*)">')
for desc in reg.findall(page):
print desc

输出:

**** LIBXML TEST ****

My name is Hikakin.<br>I'm Japanese Beatboxer.<br><br>HIKAKIN Official Blog<br>http://ameblo.jp/hikakin/<br><br>ãã³çã³ãã¥<br>http://com.nicovideo.jp/community/co313576<br><br>â»å¾¡ç¨ã®æ¹ã¯Youtubeã®ã¡ãã»ã¼ã¸ã¾ã...
**** REGEX TEST ******
My name is Hikakin.&lt;br&gt;I'm Japanese Beatboxer.&lt;br&gt;&lt;br&gt;HIKAKIN Official Blog&lt;br&gt;http://ameblo.jp/hikakin/&lt;br&gt;&lt;br&gt;ニコ生コミュ&lt;br&gt;http://com.nicovideo.jp/community/co313576&lt;br&gt;&lt;br&gt;※御用の方はYoutubeのメッセージまた...

最佳答案

这有帮助吗?

xmldoc = fromstring(page.decode('utf-8'))

关于python - libxml 解决 python 的 utf 编码问题还是我的问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3088973/

25 4 0
文章推荐: python - 对象/XML 向后兼容性
文章推荐: html -

文本左对齐,但我需要它在

Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com