gpt4 book ai didi

python - 使用 beautifulsoup 抓取文章 : scraping all

tags

转载 作者:太空宇宙 更新时间:2023-11-03 18:32:08 27 4
gpt4 key购买 nike

我编写了一个脚本,从文章中提取段落并将其写入文件。对于某些文章,它不会提取每个段落。这就是我迷失的地方。任何指导将不胜感激。我添加了指向特定文章的链接,其中并未提取所有信息。它会刮掉所有内容,直到第一个引用的句子。

网址:http://www.reuters.com/article/2014/03/06/us-syria-crisis-assad-insight-idUSBREA250SD20140306

# Ask user to enter URL
url = raw_input("Please enter a valid URL: ")

# Open txt document for output
txt = open('ctp_output.txt', 'w')

# Parse HTML of article
soup = BeautifulSoup(urllib2.urlopen(url).read())

# retrieve all of the paragraph tags
tags = soup('p')
for tag in tags:
txt.write(tag.get_text() + '\n' + '\n')

最佳答案

这对我有用:

import urllib2
from bs4 import BeautifulSoup

url = "http://www.reuters.com/article/2014/03/06/us-syria-crisis-assad-insight-idUSBREA250SD20140306"

soup = BeautifulSoup(urllib2.urlopen(url))

with open('ctp_output.txt', 'w') as f:
for tag in soup.find_all('p'):
f.write(tag.text.encode('utf-8') + '\n')

请注意,在处理文件时,您应该使用with上下文管理器。您还可以将 urllib2.urlopen(url) 直接传递给 BeautifulSoup 构造函数,因为 urlopen 返回一个类似文件的对象。

希望有帮助。

关于python - 使用 beautifulsoup 抓取文章 : scraping all <p> tags,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22240253/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com