我一直在寻找解决这个 AttributeError 问题的方法,但没有找到与“_all_strings”相关的解决方案。
我想编写一个网络爬虫程序,但页面顶部和底部有很多无意义的内容,因此我尝试清理 HTML 代码,作为排除顶部和底部不需要的噪音的先导。网页底部。
当我运行下面的代码时,特别是最后一行,我得到一个 AttributeError:
from __future__ import division
from urllib.request import urlopen
from bs4 import BeautifulSoup
textSource = 'http://celt.ucc.ie/irlpage.html'
html = urlopen(textSource).read()
raw = BeautifulSoup.get_text(html)
这是我得到的完整回溯:
Traceback (most recent call last):
File "...Crawler_Celt_Namelink_Test.py", line 7, in <module>
raw = BeautifulSoup.get_text(html)
File "...Python\Python35\lib\site-packages\bs4\element.py", line 950, in get_text
return separator.join([s for s in self._all_strings(
AttributeError: 'bytes' object has no attribute '_all_strings'
以前有人遇到过这个错误吗?或者有人可以建议我如何克服它吗?
当您查看BeautifulSoup docs时它的使用方式如下:
from urllib.request import urlopen
from bs4 import BeautifulSoup
textSource = 'http://celt.ucc.ie/irlpage.html'
html = urlopen(textSource).read()
soup = BeautifulSoup(html, 'html.parser')
raw = BeautifulSoup.get_text(soup)
我是一名优秀的程序员,十分优秀!