- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在抓取《米尔银行季刊》上发表的文章。我对有关作者及其所属机构的数据特别感兴趣。我使用 beautifulsoup 和 pandas 库编写了代码,以便将我的输出保存为 csv。 csv 每篇文章包含一行。这意味着,对于具有多个作者的文章,“作者”列包含所有作者,“机构”列包含共同创作该文章的作者的所有机构。相反,我希望输出是 csv 每个作者有一行;换句话说,每篇文章有多行。这是因为我想最终计算每个机构在期刊中出现的次数。
我使用 beautifulsoup .find_all
方法来获取所有数据。最初,我尝试使用 .find_all_next
来获取作者和机构,认为这可以容纳具有多个作者的文章,但只是没有返回这些列的任何内容。
重写此代码以便每个作者获得自己的行的最佳方法是什么?
import pandas as pd
import numpy as np
import requests
import re
import urllib
from bs4 import BeautifulSoup
from bs4 import SoupStrainer
articletype=list()
articlelist=list()
titlelist=list()
vollist=list()
issuenumlist=list()
authorlist = list()
instlist = list()
urllist=list()
issueurllist = ['https://onlinelibrary.wiley.com/toc/14680009/2018/96/1', 'https://onlinelibrary.wiley.com/toc/14680009/2018/96/2','https://onlinelibrary.wiley.com/toc/14680009/2018/96/3','https://onlinelibrary.wiley.com/toc/14680009/2018/96/4']
for issue in issueurllist:
requrl = requests.get(issue)
soup = BeautifulSoup(requrl.text, 'lxml')
#Open url of each article.
baseurl = 'https://onlinelibrary.wiley.com'
for article in issue:
doi=[a.get('href') for a in soup.find_all('a', title = "Full text")]
for d in doi:
doilink = baseurl + d
opendoi = requests.get(doilink)
articlesoup=BeautifulSoup(opendoi.text, 'lxml')
```Get metadata for each article```
for tag in articlesoup:
arttype=articlesoup.find_all("span", {"class":"primary-heading"})
title=articlesoup.find_all("meta",{"name":"citation_title"})
vol=articlesoup.find_all("meta",{"name":"citation_volume"})
issuenum = articlesoup.find_all("meta",{"name":"citation_issue"})
author = articlesoup.find_all("meta",{"name":"citation_author"})
institution=articlesoup.find_all("meta",{"name":"citation_author_institution"})
url=articlesoup.find_all("meta",{"name":"citation_fulltext_html_url"})
articletype.append(arttype)
titlelist.append(title)
vollist.append(vol)
issuenumlist.append(issuenum)
authorlist.append(author)
instlist.append(institution)
urllist.append(url)
milbankdict={'article type':articletype, 'title':titlelist, 'vol':vollist, 'issue':issuenumlist,'author':authorlist, 'author institution':instlist, 'url':urllist}
milbank2018=pd.DataFrame(milbankdict)
milbank2018.to_csv('milbank2018.csv')
print("saved")
最佳答案
find_all方法总是返回一个列表,如您所见,我正在验证 tag_object 不是 None
,这是一个重要的测试用例,因为某些作者不包含元属性然后返回 None。每个元属性不需要多个列表,您可以使用字典进行管理,这里我按作者格式化数据并关联所有元属性。
strip() Python 的内置函数用于删除字符串中所有前导和尾随空格。
import requests
from bs4 import BeautifulSoup
import pandas as pd
issueurllist = ['https://onlinelibrary.wiley.com/toc/14680009/2018/96/1',
'https://onlinelibrary.wiley.com/toc/14680009/2018/96/2',
'https://onlinelibrary.wiley.com/toc/14680009/2018/96/3',
'https://onlinelibrary.wiley.com/toc/14680009/2018/96/4'
]
base_url = 'https://onlinelibrary.wiley.com'
json_data = []
for issue in issueurllist:
response1 = requests.get(issue)
soup1 = BeautifulSoup(response1.text, 'lxml')
for article in issue:
doi=[a.get('href') for a in soup1.find_all('a', title = "Full text")]
for i in doi:
article_dict = {"article":"NaN","title":"NaN","vol":"NaN","issue":"NaN","author":"NaN","institution":"NaN","url":"NaN"}
article_url = base_url + i
response2 = requests.get(article_url)
soup2=BeautifulSoup(response2.text, 'lxml')
'''Get metadata for each article'''
article = soup2.find("span", {"class":"primary-heading"})
title = soup2.find("meta",{"name":"citation_title"})
vol = soup2.find("meta",{"name":"citation_volume"})
issue = soup2.find("meta",{"name":"citation_issue"})
author = soup2.find("meta",{"name":"citation_author"})
institution = soup2.find("meta",{"name":"citation_author_institution"})
url = soup2.find("meta",{"name":"citation_fulltext_html_url"})
if article is not None:
article_dict['article']= article.text.strip()
if title is not None:
article_dict['title']= title['content'].strip()
if vol is not None:
article_dict['vol']= vol['content'].strip()
if issue is not None:
article_dict['issue']= issue['content'].strip()
if author is not None:
article_dict['author']= author['content'].strip()
if institution is not None:
article_dict['institution']= institution['content'].strip()
if url is not None:
article_dict['url']= url['content'].strip()
json_data.append(article_dict)
df=pd.DataFrame(json_data)
df.to_csv('milbank2018.csv')
关于python - 网络抓取文章 - 个人合著者数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56799999/
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章dede会员列表调用适用于企业、个人由作者收集整理,如果你对这篇文章有兴
如何在 MySQL 中创建个人组消息传递的消息对话架构。是否有可能创建以下场景。 已读/未读 如果用户删除对话不影响其他对话。(例如用户 A 和 B 有消息对话 A 清除消息,则 B 消息不应影响)
是否可以将一些数据存储在您的个人 github 页面的某个位置? 例如触发计数器的按钮。当您单击该按钮时,计数器会加 1。当其他用户访问该页面并单击该按钮时,计数器会再次加 1。 因此它将是页面上显示
我正在编写一个守护程序应用程序来使用 Outlook Mail REST API ( https://learn.microsoft.com/en-us/previous-versions/offic
我的电脑有两个外置声卡和一个在带有 windows vista 的主板上。在 Vista 中,它看到同一个声卡的两个实体,一个数字输出和一个模拟输出。 当我尝试播放带有数字音频的视频文件时,比如 dv
我有一个个人 Apple 开发者计划,我希望我的 friend 帮助我开发我的应用程序。我的 friend ,他自己有一个个人 Apple 开发者计划,所以他创建了一个新的 Apple ID,我将他的
我知道您可以编辑在 tumblr 博客上呈现所有帖子博客主页的 html/AngularJS。但是,有没有办法添加自定义 ...到个别职位?我想在逐个帖子的基础上做一些 javascript 的事情,
首先,我想提前感谢您在此问题上提供的任何帮助。 Valgrind下面粘贴的输出源自以下单行 C 代码。 for( j=i;jsize-1;j++ ) s3->delete_tail( s3 ); 但是
我有几个服务器在测试环境中运行我有一个 CA 并且可以认证一个页面。 是否可以为从我收到的 CA 派生的测试环境创建我自己的 CA? 最佳答案 您可以使用 java 开发工具 keytool 在将要运
我正在尝试实现 custom UITabbar . 我发现的任何东西都涉及在 tabbarItem 上覆盖一个矩形。那么有什么直接的方法可以做到这一点吗? 最佳答案 要更改单个 tabBar 项目的色
我读了git book但不知何故忘记了rule上面写着: Do not rebase commits that you have pushed to a public repository. If y
我在工作中使用 BitKeeper,我想在家里为自己做一个基本的代码备份(考虑到我很少备份) //我以前从未使用过 git,所以我需要很多帮助 我认为在我的家庭服务器上有一个 git 存储库可能是个好
我必须处理大量扫描的 ID,我需要从中提取照片以进行进一步处理。这是一个虚构的例子: 问题是扫描没有完全对齐(最多旋转 10 度)。所以我需要找到它们的位置,旋转它们并剪出照片。事实证明,这比我原先想
在下面的代码块中,有几个(故意的)错误,我的任务是找到它们并解释这些错误是否会导致编译代码时出现问题,或者至少会导致一些逻辑问题。 public class Person { private St
一个 friend 给了我这个问题作为挑战,我试图在 LeetCode 上找到这样的问题,但很遗憾没有找到。 问题 Given a line of people numbered from 1 to
我有一个绑定(bind)到 VSTS 的公司帐户,以及一个绑定(bind)到同一电子邮件地址但作为个人帐户的 Azure 帐户。 VSTS 帐户:[email protected] (公司账户) Az
我刚刚创建了一个新的 MVC 项目并创建了一个空 View 。我在尝试声明 View 的模型时编写了第一行代码,如下所示: @model Personal; 其中,personal 是实际存在的模型
我是Kotlin的新手,我尝试理解所示的交换两个变量值的简短代码。 我不明白为什么它和b在Also函数中具有不同的值。他们不使用十进制值2引用相同的内存地址吗? 谢谢。 var a = 1 var b
我正在尝试查询与类/个人相关的所有 AnnotationAssertion。 下面是我的来源片段: #Car
我们目前正在使用威瑞信的时间戳服务,但时间戳服务器时常变得不可用 - 主要是由于我们的 ISP 故障。 我们现在为我们构建的所有内容添加时间戳,甚至是简单的开发构建,因为我们在 Vista 中遇到了很
我是一名优秀的程序员,十分优秀!