python - 'unicode' 对象没有属性 'prettify'-6ren

python - 'unicode' 对象没有属性 'prettify'

转载作者：太空宇宙更新时间：2023-11-04 02:59:41

26

4

我正在使用 BeautifulSoup 来解析 html 文章。我使用了一些函数来清除html，所以我可以只保留主要文章。

此外，我想将 Soup 输出保存到一个文件中。我得到的错误如下:

soup = soup.prettify("utf-8")
AttributeError: 'unicode' object has no attribute 'prettify'

源代码:

#!/usr/bin/env python
import urllib2
from bs4 import BeautifulSoup
import nltk
import argparse

def cleaner():
    url = "https://www.ceid.upatras.gr/en/announcements/job-offers/full-stack-web-developer-papergo"
    ourUrl  = urllib2.urlopen(url).read()
    soup = BeautifulSoup(ourUrl)

    #remove scripts
    for script in soup.find_all('script'):
        script.extract()
    soup = soup.find("div", class_="clearfix")

    #below code will delete tags except /br
    soup = soup.encode('utf-8')
    soup = soup.replace('<br/>' , '^')
    soup = BeautifulSoup(soup)
    soup = (soup.get_text())
    soup=soup.replace('^' , '<br/>')

    print soup
    with open('out.txt','w',encoding='utf-8-sig') as f:
        f.write(soup.prettify())

if __name__ == '__main__':
    cleaner()

最佳答案

这是因为 soup 在这些行之后不再是 BeautifulSoup 或 Tag 实例:

soup = (soup.get_text())
soup = soup.replace('^' , '<br/>')

它变成了一个 unicode 字符串，当然，它没有 .prettify() 方法。

根据您想要的输出，您应该能够使用 .get_text()，.replace_with() , .unwrap() , .extract()和其他 BeautifulSoup 方法来清理您的 HTML，而不是尝试将其作为常规字符串处理。

关于python - 'unicode' 对象没有属性 'prettify'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41325533/

26

4

0

文章推荐： python Pandas : Subsetting data frame both by rows and columns?

文章推荐： javascript - Node.js 模块.export

文章推荐： c - c中for循环的段错误

文章推荐： javascript - 从对象实例调用函数不起作用

prettify - 使用 google-code-prettify 显示 XML
我似乎无法让 google prettify 使用基本的 XML:任何人都可以使用它，或者可以看到我做错了什么:这是我的代码: XML Output 如有任何帮助，我们
html - 网站。如何为 drupal 页面添加自定义 js/css prettify.js/prettify.css？
我想使用自定义 css/js。我已将这些移动到服务器。但是 drupal 页面以一个部分开头。如何将自定义 css/js 添加到我的 drupal 网站页面。我有管理员，只需要知道如何将其包含在页面上
javascript - 在动态生成的代码上使用 Prettify
我正在使用 Prettify 进行语法高亮显示，但它不适用于动态生成的代码。我有一个表单，提交后会生成代码并在中显示(无需刷新) , 但美化不适用于此代码，是否有任何解决方法？非常感谢! 最佳
google-code-prettify - 谷歌美化语言代码列表
我在任何地方都找不到这个，我发誓我曾经能够非常简单地进行窥探。谁能帮我？谢谢。我会很感激。还有美化支持批处理？最佳答案您可以在 FAQ 中找到表格, 在标题下 For which languag
json - 招摇的用户界面 : Prettify JSON
有没有办法让 Swagger 自己美化 JSON，而不需要被调用的库输出漂亮的 JSON？我似乎找不到关于这个主题的任何内容。最佳答案您问题的答案在 projects's GitHub 上. 您可
javascript - 使用 Prettify 在网页中动态生成的代码段的语法突出显示
我有一个 div，我在其中根据 AJAX 请求的结果动态加载一段代码。然后我想使用 prettify 对其进行格式化。它有效，但它太慢了。我使用的代码如下: var jqxhr = $.get(fil
css - Google Prettify 行号和字体
我一直在玩 Prettify，我很快就让它工作了。但是，当我尝试更改 css 文件中的字体时，我似乎无法在浏览器中看到任何更改。我正在使用 Silver Stripe 作为 CMS。在网站的 CSS
javascript - 如何检查 Prettify 是否已加载
我仅在时加载脚本存在。我发现要启动Prettify，您需要使用prettyPrint(); . 但是，在不加载脚本的页面上，我收到 Javascript 错误。有没有办法测试 Prettify 是
html - 防止 'prettifying' 制表符转换为空格
因此我们最近将我们的浏览器支持政策更改为 IE 8/9、Firefox、Chrome 和 Windows 7 上的 Safari，所有这些都支持 box-sizing: border-box; 以某种
python - 'unicode' 对象没有属性 'prettify'
我正在使用 BeautifulSoup 来解析 html 文章。我使用了一些函数来清除html，所以我可以只保留主要文章。此外，我想将 Soup 输出保存到一个文件中。我得到的错误如下: soup
python - BeautifulSoup Prettify 在版权符号上失败
我收到一个 Unicode 错误:UnicodeEncodeError: 'charmap' codec can't encode character u'\xa9' in position 822:
python - BeautifulSoup .prettify() 的自定义缩进宽度
有没有办法为 .prettify() 函数定义自定义缩进宽度？从我可以从它的来源获得的信息 - def prettify(self, encoding=None, formatter="minimal
html - BeautifulSoup 和 prettify() 函数
为了解析网站的html代码，我决定使用BeautifulSoup类(class)和 prettify()方法。我写了下面的代码。 import requests import bs4 response
jQuery 同位素哈希历史记录 : prettify the hash-URL
我正在使用Isotope与哈希历史记录。它工作得很好，但我对这个 URL 不满意 - 我想简化和清理它。当前使用: var href = $this.attr('href').replace( /^
python - 三层饼图 matplotlib - 如何 "prettify"
我试图在 matplotlib 中模拟一个三层饼图，但对其美观不满意。具体来说，我似乎无法使三个级别(或 donut )更加独特。另外，我想理想地将标签显示为图例，而不是它们当前的显示方式。最后，如
javascript - 如何使用 prettify.js 主题？
有 a set of "themes" for prettify.js . 我如何实际使用它们？我要吗到选定的“主题”.css文件而不是 prettify.css文件或我做任何其他事情吗？流程是什么
python - BeautifulSoup 网页有保护和 prettify() 不返回数据
我正在尝试从 Wine 网站获取一些数据。但我无法评估数据，并且有一条使用违规消息。网址:https://www.wine-searcher.com/find/drc/2013 prettify(
javascript - 强制忽略 Redactor 编辑器中的 Prettify？
我目前正在寻找一种在我的网站中实现美化以允许在页面内容中发布代码片段的方法。问题:我正在使用 Redactor WYSIWYG，这在编辑器中引起了一些问题(在编辑器中美化代码块的样式，将样式化的 h
html - Google Prettify 削减了我的代码——需要修复
目前我的代码在 for 循环中的 int count_simd(char *arr, int len, char key) { int count = 0; __m128i sixt
css - 如何更改或禁用 Google Prettify 中的交替背景颜色
我想更改颜色，甚至完全禁用我在 blog@blogger 上使用的 google prettify 中的交替背景颜色。我当前的 CSS 是 Doxy 主题，但有此更改: /* Specify cla

首页

博学

6Ren·AI

商城

python - 'unicode' 对象没有属性 'prettify'