gpt4 book ai didi

python - Beautifulsoup 网络爬虫问题

转载 作者:行者123 更新时间:2023-12-04 16:19:34 27 4
gpt4 key购买 nike

我正在使用 BeautifulSoup 和 mechanise 从网页中查找一些内容。问题是有时找不到我正在寻找的字符串。我不知道有什么问题

对于许多网页,它可以正常工作数月,但突然停止工作。然后我必须重新启动我的程序并希望得到正确的结果。

问题出在data.find(text=re.compile('string to find')) .网页总是在下载,但有时找不到字符串。我认为问题可能是错误的 HTML加载页面的格式?任何的想法?

这是我正在使用的代码的很小一部分,仅供您查看

from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re

def get_page(url):
mech = Browser()
page = mech.open(url)
return page.read()

def test():
data = soup(get_page('some url'))

div_pages = data.find(text=re.compile('string to find'))

try: pager = div_pages.strip().split(' ')
except:
print div_pages
sys.exit()

print 'ok'

if __name__ == '__main__':
test()

最佳答案

我帮助某人解决了类似的问题,结果是字符串的编码。此链接(来自他们的文档)可能对您有所帮助 - Beautiful Soup Gives You Unicode, Dammit

关于python - Beautifulsoup 网络爬虫问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7267846/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com