beautifulsoup - 从外部文件中删除多余的垃圾字符-6ren

beautifulsoup - 从外部文件中删除多余的垃圾字符

转载作者：行者123 更新时间：2023-12-04 10:36:53

这段代码正确地从我的博客中提取了马拉地语文本。我很欣赏使用漂亮的汤和正则表达式是多么容易。

from bs4 import BeautifulSoup
import requests, re

url = "http://shabdasampada.blogspot.com/2020/01/blog-post_29.html"

headers = requests.utils.default_headers()
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')
text = soup.get_text()

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub(' ', line)
    if cleaned.strip():
        print(cleaned)

但是我可以在最后几行看到一些垃圾字符。像这样...

"ल क म ळव ल क म ळव"

我如何删除这些行？

更新:

我的代码返回这个:

नाबर की नंबर स्वभाषेत टंकलेखन साहाय्य २९ जानेवारी २०२० नाबर की नंबर गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली त्याला आता फार नाही पण एक दोनच महिने झाले असतील काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते आज मी मंगेश नाबर या व्यक्तीची माहिती गुगलून पाहिली तर मंगेश आणि नंबर हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत बहुतेक गुगलने नाबर या शब्दाला बदलून नंबर केले असावे द्वारा पोस्ट केलेले येथे १० ०४ म पू लेबल हे राम कोणत्याही टिप्पण् या नाहीत टिप्पणी पोस्ट करा नवीनतम पोस्ट थोडे जुने पोस्ट मुख्यपृष्ठ याची सदस्यता घ्या टिप्पणी पोस्ट करा
ब्लॉग संग्रहण मनोगताचा स्पेल चेकर बसलय की बसलंय नाबर की नंबर स्पर्धापरीक्षेचा खरा धोका माझ्याबद्दल माझे पूर्ण प्रोफाइल पहा ल क म ळव ल क म ळव
वर श अर कर ह ब
ल गकर ह ब
ल गकर
वर श अर कर
वर श अर कर ईम ल ईम ल
अध क व च
न बर क न बर
न बर क न बर
स प दन ल क क
ल पब र डवर क प क ल
ठ क आह ल क प स ट कर
न बर क न बर ग गलन
मश न लर न गच व पर कर न सर च र झल ट द खव यल स र व
त क ल त य ल आत फ र न
ह पण एक द नच मह न झ ल असत
ल
                                                                                                                                                                                      ल       ड ह       त आह

我的问题是以下部分在页面上的任何地方都看不到。我想知道它的起源。

क म ळव ल क म ळव
वर श अर कर ह ब
ल गकर ह ब
ल गकर
वर श अर कर
वर श अर कर ईम ल ईम ल
अध क व च
न बर क न बर
न बर क न बर
स प दन ल क क
ल पब र डवर क प क ल
ठ क आह ल क प स ट कर
न बर क न बर ग गलन
मश न लर न गच व पर कर न सर च र झल ट द खव यल स र व
त क ल त य ल आत फ र न
ह पण एक द नच मह न झ ल असत
ल
                                                                                                                                                                                      ल       ड ह       त आह

更新 2:

我忘了删除javascript!

for script in soup(["script", "style"]):
    script.decompose()
text = soup.get_text()

最佳答案

您获得的数据仅来自博客，因为您没有准确指定您想要什么，所以您正在获得一切。

假设你只想要

然后你必须指定到 BeautifulSoup 正是这部分，仅此而已。

您的代码正在从该页面读取所有内容:

输出:

                           नाबर की नंबर 
स्वभाषेत टंकलेखन साहाय्य
२९ जानेवारी  २०२०
नाबर की नंबर 
गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली  त्याला आता फार नाही पण एक दोनच महिने झाले असतील 
काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते   आज मी  मंगेश नाबर  या व्यक्तीची माहिती गुगलून पाहिली तर  मंगेश  आणि  नंबर   हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत  बहुतेक गुगलने  नाबर  या शब्दाला बदलून  नंबर  केले असावे 
द्वारा पोस्ट केलेले
येथे
१० ०४ म पू 
लेबल 
हे राम 
कोणत्याही टिप्पण् या नाहीत 
टिप्पणी पोस्ट करा
नवीनतम पोस्ट
थोडे जुने पोस्ट
मुख्यपृष्ठ
याची सदस्यता घ्या 
टिप्पणी पोस्ट करा       
ब्लॉग संग्रहण
मनोगताचा स्पेल चेकर
बसलय की बसलंय 
नाबर की नंबर 
स्पर्धापरीक्षेचा खरा धोका
माझ्याबद्दल
माझे पूर्ण प्रोफाइल पहा 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    ल              क म       ळव                                          ल              क म       ळव                                                                                           वर श       अर कर                                           ह       ब       ल       गकर                                               ह       ब       ल       गकर                                                                                             वर श       अर कर                                                                                                     वर श       अर कर                                            ईम       ल                                    ईम       ल                                                                                                                                                                                                                                                                                     अध       क व       च                                                                            न       बर क        न       बर                                              न       बर क        न       बर                                                                                                                                           स       प       दन                             ल              क क       ल       पब       र       डवर क       प        क       ल                  ठ       क आह                       ल              क प       स       ट कर                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     न       बर क        न       बर                     ग       गलन        मश       न लर       न              गच        व       पर कर       न सर       च र       झल       ट द       खव       यल        स       र       व       त क       ल         त       य       ल        आत        फ       र न       ह        पण एक द       नच मह       न        झ       ल        असत       ल                                                                                                                                                                                                                                                                                                                           
                                                                                                                                                                                          ल       ड ह       त आह

但与:

from bs4 import BeautifulSoup
import requests, re

url = "http://shabdasampada.blogspot.com/2020/01/blog-post_29.html"

headers = requests.utils.default_headers()
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')

h=soup.find_all('div', attrs={'class':"post hentry uncustomized-post-template"})[0]

text = h.get_text()

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub(' ', line)
    if cleaned.strip():
        print(cleaned)

输出将是:

नाबर की नंबर 
गुगलने मशीन लर्निंगचा वापर करून सर्च रिझल्ट दाखवायला सुरुवात केली  त्याला आता फार नाही पण एक दोनच महिने झाले असतील 
काही बाबतीत रिझल्टमध्ये सुधारणा झाली असली तरी इतर बऱ्याच बाबतीत आणि विशेषतः देवनागरी सर्चची क्वालिटी घसरलेली दिसते   आज मी  मंगेश नाबर  या व्यक्तीची माहिती गुगलून पाहिली तर  मंगेश  आणि  नंबर   हे दोन शब्द असलेली पाने पहिल्या पानावर दिसत आहेत  बहुतेक गुगलने  नाबर  या शब्दाला बदलून  नंबर  केले असावे 
द्वारा पोस्ट केलेले
येथे
१० ०४ म पू 
लेबल 
हे राम

您可以看到我指定了包含您需要的数据的 div

h=soup.find_all('div', attrs={'class':"post hentry uncustomized-post-template"})[0]

要检查这一点，您必须检查网页的 html 以确切知道您想要的数据在哪里。为此，您可以在 chrome 中使用 Ctrl+Shift+i。

我建议你看一下 this发布更多信息

最后一个问题

您看到的垃圾数据仅来自您的网站。

BeautifulSoup 从页面源获取数据，并且由于您没有提到任何条件来告诉它您想要什么数据，因此您将获得所有数据。
要了解您的垃圾数据来自何处，请查看您的页面来源
网站。

如果您查看页面源代码，您会在 html 代码的末尾发现这些垃圾。

这是您在输出中看到的所有垃圾的来源。

如果您进行此更改:
代替' cleaned '打印' line '

p = re.compile(r'[^\u0900-\u097F\n]')
for line in text.splitlines():
    cleaned = p.sub(' ', line)
    if cleaned.strip():
        print(line)

你最终会以这种方式看到很多垃圾数据……垃圾数据实际上存在于你页面的源代码和代码中，因为你只过滤了一组特定的字符，你只看到了那些

关于beautifulsoup - 从外部文件中删除多余的垃圾字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60133582/

文章推荐： python - 如何使用 Python pandas 验证日期？

文章推荐： python - 继续中断时如何重置序列

文章推荐： php - 如何在 php echo 输出中使用 css 样式

文章推荐： nuxt.js - Nuxt js - 未定义窗口或文档

c - 如何防止c中的悬空指针/垃圾？
我是 C 新手，还没有真正掌握 C 何时决定释放对象以及何时决定保留对象。 heap_t 是指向结构堆的指针。 heap_t create_heap(){ heap_t h_t = (heap
文件末尾的 C++ 垃圾
我有一个问题，我不知道如何解决。问题是: char * ary = new Char[]; ifstream fle; fle.open(1.txt, ios_base::binary); fle.s
algorithm - 如何从字符串中删除这些符号(垃圾)？
假设我在 C# 中有字符串:“我看不到你……” 我想删除(替换为空等)这些“â€™”符号。我该怎么做？最佳答案那个“垃圾”看起来很像有人将 UTF-8 数据解释为 ISO 8859-1 或 Wi
python - 垃圾。开始爬行后如何更改蜘蛛设置？
我无法在解析方法中更改蜘蛛设置。但这绝对是一种方式。例如: class SomeSpider(BaseSpider): name = 'mySpider' allowed_domains
JVM是如何和“垃圾”发生关系的
在开始之前，我们先回顾一下堆是个什么玩意，大家可能都知道，我们每天创建的Java对象几乎都存放在堆上面，所以说堆是一个巨大的对象池一点都不过分，在这个对象池里面管理者数据巨大的对象实例。在对
c - printf() 无格式字符串打印字符和整数数组 --> 垃圾
我想知道为什么 printf() 在提供数组且没有格式化选项时成功打印字符数组，但在使用整数数组时编译器会抛出警告并打印垃圾值。这是我的代码: #include int main() { c
python - 垃圾。 LinkExtractor 中的意外符号
我正在研究 Scrapy 库并尝试制作一个小爬虫。这是爬虫的规则: rules = ( Rule(LinkExtractor(restrict_xpaths='//div[@class="w
c++ - stringstream 的第一个字符串参数被保存为指针/垃圾
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Printing a string to a temporary stream object in C++
javascript - 是否收集了 WebGLTextures 垃圾？
这个问题在这里已经有了答案: Are WebGL objects garbage collected? (2 个答案) 关闭 3 年前。在 WebGL 中，纹理的创建和销毁使用: WebGLTex
java - 未记录的神秘类——垃圾，还是我不知道的设计模式？
我继承了以下代码: (为保护无辜者更改了一些名称。) package foo.bar.baz; import javax.swing.JPanel; //Main panel in the GUI c
java - 是否收集了 lambda 垃圾？
如果我没记错的话，在某些情况下，Java 中的 lambda 会生成为匿名类实例。例如，在这段代码中，lambda 需要从外部捕获一个变量: final int local = 123456; lis
c# - 是否收集了不安全的 C# 垃圾
我正在阅读托管代码中的内存泄漏，想知道是否可以在 C# 不安全代码中创建它？ unsafe { while(true) new int; } 我不确定如果它作为不安全代码运行，是否会被 GC
javascript - 替换文档正文时是否收集了内联 javascript 垃圾？
假设我有以下用 HTML 编写的网页(仅正文部分): ... function fn() { // do stu
shell - 编译后自动删除生成的 latex (垃圾)文件？
我想知道是否有简单的命令可以删除在 latex 编译过程中生成的所有不必要的文件，例如.aux、.log 等最好将它链接到常规的 Latex 构建命令，这样在我点击“编译”后，垃圾文件就会被删除。
java - 在 Java 中用字符串切换大小写 - 垃圾？
Java 在 Java7 中引入了带有字符串的 switch case。我想知道使用这样的开关盒是否会产生垃圾。例如在我的程序中， String s = getString(); switch(s)
c++ - Cevelop 对象到未初始化的变量 char 垃圾
Cevelop将 char junk 作为“未初始化的变量”对象。在这种情况下，解决问题的正确方法是什么？ friend std::ostream& operator>(std::istream&
css - 删除类似样式 =""的 html 垃圾
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and t
c++ - 从客户端收到所有数据后提升 asio streambuf 垃圾
我正在编写一个发送和接收纯文本的小型 boost asio tcp 服务器和客户端。通信或多或少是请求响应。在测试期间，我想我只是向服务器发送垃圾数据，向它发送 100.000 个请求。客户端发
java - 文档元素后的 Android java XML 垃圾
我正在使用 SAX 来读取/解析 XML 文档，并且它工作正常，除了这个特定的站点，在该站点中 eclipse 告诉我“文档元素之后的垃圾”并且我没有返回任何数据 http://www.zachblu
python - 垃圾/ python : Replace empty string
这是我的 Scrapy 爬虫代码。我正在尝试从网站中提取元数据值。没有元数据在一个页面上出现多次。 class MySpider(BaseSpider): name = "courses"

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

beautifulsoup - 从外部文件中删除多余的垃圾字符