gpt4 book ai didi

python - 使用 Python 解析网页的搜索结果

转载 作者:太空宇宙 更新时间:2023-11-03 11:54:39 25 4
gpt4 key购买 nike

我最近开始使用 python 开发一个程序,它允许用户轻松地结合任何动词。为此,我使用 urllib 模块打开相应的变位网页。例如,动词“beber”的网页为:

"http://www.spanishdict.com/conjugate/beber"

要打开该页面,我使用以下 python 代码:

source = urllib.urlopen("http://wwww.spanishdict.com/conjugate/beber").read()

此来源确实包含我要解析的信息。但是,当我像这样用它制作 BeautifulSoup 对象时:

soup = BeautifulSoup(source)

我似乎丢失了所有我想解析的信息。制作 BeautifulSoup 对象时丢失的信息通常如下所示:

<tr>
<td class="verb-pronoun-row">
yo </td>
<td class="">
bebo </td>
<td class="">
bebí </td>
<td class="">
bebía </td>
<td class="">
bebería </td>
<td class="">
beberé </td>
</tr>

我做错了什么?一般来说,我不是 Python 或 Web 解析方面的专业人士,所以这可能是一个简单的问题。

这是我的完整代码(我用“++++++”来区分两者):

import urllib
from bs4 import BeautifulSoup

source = urllib.urlopen("http://www.spanishdict.com/conjugate/beber").read()
soup = BeautifulSoup(source)

print source
print "+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++"
print str(soup)

最佳答案

当我编写解析器时,我遇到了 bs 问题,在某些情况下,它没有找到找到的 lxml,反之亦然,因为 html 损坏了。尝试使用 lxml.html .

关于python - 使用 Python 解析网页的搜索结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15044563/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com