gpt4 book ai didi

python - 使用 Beautiful Soup 在 python 中解析网页

转载 作者:太空狗 更新时间:2023-10-29 20:46:13 25 4
gpt4 key购买 nike

我在从网站获取数据时遇到了一些麻烦。网站来源在这里:

view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO

有这样的东西:

INFORMACJE O FILMIE

Tytuł............................................: La mer à boire

Ocena.............................................: IMDB - 6.3/10 (24)

Produkcja.........................................: Francja

Gatunek...........................................: Dramat

Czas trwania......................................: 98 min.

Premiera..........................................: 22.02.2012 - Świat

Reżyseria........................................: Jacques Maillot

Scenariusz........................................: Pierre Chosson, Jacques Maillot

Aktorzy...........................................: Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel

我想从这个网站获取数据以得到一个 Python 字符串列表:

[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]

我使用 BeautifulSoup 编写了一些代码,但我不能再进一步了,我只是不知道从网站源代码中获取其余部分以及如何将其转换为字符串 ...请帮忙!

我的代码:

    # -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2
from bs4 import BeautifulSoup

try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
c = soup.find('span', {'class':'vi'}).contents
print(c)
except urllib2.HTTPError :
print("HTTPERROR!")
except urllib2.URLError :
print("URLERROR!")

最佳答案

使用 BeautifulSoup 的秘诀在于找到 HTML 文档的隐藏模式。例如,你的循环

for ul in soup.findAll('p') :
print(ul)

方向正确,但它会返回所有段落,而不仅仅是您要查找的段落。但是,您要查找的段落具有类 i 的有用特性。在这些段落中,您可以找到两个跨度,一个是 i 类,另一个是 vi 类。我们很幸运,因为这些跨度包含您要查找的数据:

<p class="i">
<span class="i">Tytuł............................................</span>
<span class="vi">: La mer à boire</span>
</p>

因此,首先获取具有给定类的所有段落:

>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]

现在,使用 list comprehensions ,我们可以生成一个对列表,其中每对包含段落中的第一个和第二个跨度:

>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>),
(<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
(<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
# and so on
]

现在我们有了跨度,我们可以从中获取文本:

>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
(u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
(u'Produkcja.........................................', u': Francja'),
# and so on
]

那些文本仍然不正确,但很容易纠正它们。要从第一个中删除点,我们可以使用 rstrip() :

>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'

: 字符串可以用 lstrip() 删除:

>>> u': Francja'.lstrip(': ')
u'Francja'

要将其应用于所有内容,我们只需要另一个列表理解:

>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
(u'Ocena', u'IMDB - 6.3/10 (24)'),
(u'Produkcja', u'Francja'),
(u'Gatunek', u'Dramat'),
(u'Czas trwania', u'98 min.'),
(u'Premiera', u'22.02.2012 - \u015awiat'),
(u'Re\u017cyseria', u'Jacques Maillot'),
(u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
(u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Tr&eacute;gou&euml;t, Alain Beigel'),
(u'Wi\u0119cej na', u':'),
(u'Trailer', u':Obejrzyj zwiastun')]

就是这样。我希望这个循序渐进的示例可以让您更清楚地了解 BeautifulSoup 的使用。

关于python - 使用 Beautiful Soup 在 python 中解析网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11234614/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com