gpt4 book ai didi

class - 使用lxml查找带有类的html元素

转载 作者:行者123 更新时间:2023-12-04 01:34:01 28 4
gpt4 key购买 nike

我到处搜索,我找到的最多的是 doc.xpath('//element[@class="classname"]'),但是无论我尝试什么,这都不起作用。

我正在使用的代码

import lxml.html

def check():
data = urlopen('url').read();
return str(data);

doc = lxml.html.document_fromstring(check())
el = doc.xpath("//div[@class='test']")
print(el)

它只是打印一个空列表。

编辑:
多么奇怪。我使用谷歌作为测试页面,它在那里工作正常,但它在我使用的页面上不起作用(youtube)

这是我正在使用的确切代码。
import lxml.html
from urllib.request import urlopen
import sys

def check():
data = urlopen('http://www.youtube.com/user/TopGear').read(); #TopGear as a test
return data.decode('utf-8', 'ignore');


doc = lxml.html.document_fromstring(check())
el = doc.xpath("//div[@class='channel']")
print(el)

最佳答案

您用于测试的 TopGear 页面没有任何 <div class="channel">元素。但这有效(例如):

el = doc.xpath("//div[@class='channel-title-container']")

或这个:
el = doc.xpath("//div[@class='a yb xr']")

<div>带有 class 的元素包含字符串 channel 的属性,你可以使用
el = doc.xpath("//div[contains(@class, 'channel')]") 

关于class - 使用lxml查找带有类的html元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8226490/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com