gpt4 book ai didi

python - XPath Scrapy 结果问题 - OR 语句?

转载 作者:行者123 更新时间:2023-12-01 05:39:03 24 4
gpt4 key购买 nike

我正在尝试抓取“团队击球”表:http://www.baseball-reference.com/teams/BOS/2013.shtml网页。我有两个问题。

  1. 我只获得了 34 级的玩家排名,而不是 43 级的总排名。我不知道为什么会发生这种情况。代码中从 34 到 35 看起来没有任何不同。
  2. 玩家位置仅进入DH,然后再次重复,为第一个DH之后的每​​个人提供相同的位置。前 10 个位置有一个“强”标签,所以我做了一个 OR 语句来同时执行“强”和不强。显然这不起作用。

这是 XPATH 代码:

    item ['rank'] = stats.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()')[count].extract()
item ['position'] = stats.select(('//table[@id="team_batting"]/tbody/tr/td[2]/strong/text()') or ('//table[@id="team_batting"]/tbody/tr/td[2]/text()'))[count].extract()
item ['name'] = stats.select('//table[@id="team_batting"]/tbody/tr/td[3]/a/text()')[count].extract()

谢谢!

最佳答案

问题 1:

您的 XPath 是正确的,我已经对其进行了测试并获得了所有 43 个节点。

>>> res = hxs.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()').extract()
>>> res
[u'1', u'2', u'3', u'4', u'5', u'6', u'7', u'8', u'9', u'10', u'11', u'12', u'13', u'14', u'15', u'16', u'17', u'18', u'19', u'20', u'21', u'22', u'23', u'24', u'25', u'26', u'27', u'28', u'29', u'30', u'31', u'32', u'33', u'34', u'35', u'36', u'37', u'38', u'39', u'40', u'41', u'42', u'43']
>>> len(res)
43

我认为使用 [count] 对结果进行切片会得到 34。所以你只能得到结果的一部分。

>>> len(hxs.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()')[:34].extract())
34

问题2:

这样的肯定行不通。您只需更改 XPath 的一些内容即可获取文本,而不必担心文本是否强。

>>> res = hxs.select('//table[@id="team_batting"]/tbody/tr/td[2]//text()').extract()
^

使用//而不是/。这将检索所有后代文本节点。您可以看到结果:

>>> res
[u'C', u'1B', u'2B', u'SS', u'3B', u'LF', u'CF', u'RF', u'DH', u'OF', u'IF', u'UT', u'C', u'OF', u'UT', u'3B', u'UT', u'UT', u'IF', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P', u'P']
>>> len(res)
43

我使用的片段:

>>> import urllib2
>>> from scrapy.selector import HtmlXPathSelector
>>> f = urllib2.urlopen('http://www.baseball-reference.com/teams/BOS/2013.shtml')
>>> hxs = HtmlXPathSelector(text=f.read())
>>> rank = hxs.select('//table[@id="team_batting"]/tbody/tr/td[1]/text()').extract()
>>> position = hxs.select('//table[@id="team_batting"]/tbody/tr/td[2]//text()').extract()
>>> name = hxs.select('//table[@id="team_batting"]/tbody/tr/td[3]/a/text()').extract()

编辑:

hxs = HtmlXPathSelector(text=f.read())
divs = hxs.select('//div[@class="table_container"]')
for div in divs:
table = div.select('./table')
item['rank'] = table.select('./tbody/tr/td[1]/text()').extract()
...

关于python - XPath Scrapy 结果问题 - OR 语句?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18094935/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com