- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试从 WoS(Web of Science)数据库下载信息。我需要文章名称、作者、被引用次数、卷数等信息
这是我的代码:
import sys
from BeautifulSoup import BeautifulSoup
import urllib
import re
var = raw_input("Link WoS: ")
conn = urllib.urlopen(var)
html = conn.read()
soup = BeautifulSoup(html)
titles = re.findall('<value lang_id="">(.+?)</value>',str(soup))
volume = re.findall('Volume: </span><span class="data_bold"><value>(.+?)</value>', str(soup))
print(volume)
它非常适合获得头衔。但是,我在获取以下信息时遇到问题:卷、期、页数、日期(发布)和引用次数。这是网页来源:
</span><span name="source_title_1" id="source_title_1">
<value>
<span class="hitHilite">EDUCATIONAL RESEARCH</span>
</value>
</span> <span class="label">Volume: </span><span class="data_bold">
<value>35</value>
</span> <span class="label">Issue: </span><span class="data_bold">
<value>1</value>
</span> <span class="label">Pages: </span><span class="data_bold">
<value>3-25</value>
</span> <span class="label">Published: </span><span class="data_bold">
<value>SPR 1993</value>
</span>
</div>
<div style="display: inline-block" id="links_1">
<nobr><span id="links_openurl_1"></span> <span id="links_full_text_1"> </span> <span id="links_doc_del_1"></span> <span id="links_patent_1"> </span> </nobr>
</div>
<div class="search-action-item">
<span id="solo_full_text_1" class="solo_full_text"></span><a name="full_text_1" id="full_text_1" title="Full Text" class="button2link button-ft" href="javascript:;"><span id="full_text_1" name="full_text_1" title="Full Text" class="button2 button-ft">Full Text</span></a>
<div class="popup-full-text" id="full_text_1_menu">
<span id="full_text_1_links"></span>
</div>
</div>
<script type="text/javascript">$("#full_text_1").hide();</script><span style="display: inline-block" class="button-abstract" id="ViewAbstract1_text"><a title="View Abstract" alt="View Abstract" onclick="return hide_show_abstract('1', 'http://images.webofknowledge.com/WOKRS523R4/images/spacer.gif', 'http://images.webofknowledge.com/WOKRS523R4/images/spacer.gif', 'View Abstract', 'Close Abstract');" href="javascript:;" class="button9"><img align="absmiddle" title="View Abstract" alt="View Abstract" src="http://images.webofknowledge.com/WOKRS523R4/images/spacer.gif" id="ViewAbstract1_img">View Abstract<nobr></nobr></a></span><span style="display: none" class="button-abstract" id="HideAbstract1_text"><a title="Close Abstract" alt="Close Abstract" onclick="return hide_show_abstract('1', 'http://images.webofknowledge.com/WOKRS523R4/images/spacer.gif', 'http://images.webofknowledge.com/WOKRS523R4/images/spacer.gif', 'View Abstract', 'Close Abstract');" href="javascript:;" class="button9"><img align="absmiddle" title="Close Abstract" alt="Close Abstract" src="http://images.webofknowledge.com/WOKRS523R4/images/spacer.gif" id="HideAbstract1_img">Close Abstract<nobr></nobr></a></span><span style="display: none" url="http://apps.webofknowledge.com/ViewAbstract.do?product=WOS&search_mode=GeneralSearch&viewType=ViewAbstract&qid=5&SID=W1tvVEGCvoimqQujw4V&page=1&doc=1" id="ViewAbstract_Span1">
<!----></span></div><div class="search-results-data">
<div class="search-results-data-cite">Times Cited: <a title="View all of the articles that cite this one" href="/CitingArticles.do?product=WOS&SID=W1tvVEGCvoimqQujw4V&search_mode=CitingArticles&parentProduct=WOS&parentQid=5&parentDoc=1&REFID=448550&excludeEventConfig=ExcludeIfFromNonInterProduct">487</a>
<br>
我认为我有问题,因为数据是数字......你能帮我吗?
最佳答案
Beautifulsoup 有自己的正则表达式功能
html = '<html><span>Volume: </span><span class="data_bold"><value>20</value></span></html>'
soup = BeautifulSoup(html)
matches = soup.findAll(text=re.compile('Volume'))
for match in matches:
element = match.parent
#o/p: <span>Volume: </span>
sibling_tag = element.findNextSibling()
#o/p: <span class="data_bold"><value>20</value></span>
print sibling_tag.find('value').text
#o/p: u'20'
注意:这只是一个示例,无法访问实际的 html
关于python - 使用Python爬行WoS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41065038/
再会! 我有一个 ActiveX 按钮(根据从顶部开始的行数锚定在位置上),它运行 VBA 代码以在特定点插入指定数量的复制行。代码本身工作正常,但按钮“克隆”自身并将自身覆盖在新行的位置,即使我设置
我正在尝试在 Ubuntu 14.04 上部署 Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94 以下 tutorial .当我尝试开始爬行注入(inject)网址
我正在尝试爬行某个驱动器并从埋藏在子目录中的某些 .xls 文件中获取数据。该驱动器超过 1 TB,并且文件夹并不都具有相同的层次结构,因此我正在遍历所有文件夹。到目前为止,该脚本运行良好。 问题是,
首先,我希望抓取是从桌面 .exe 向网站发送请求并获取数据的正确词。如果是,我应该使用什么库或插件?我是否应该使用另一种语言来执行此操作(如 Java 或其他语言?)。我需要一些“提示”,因为我真的
这是我的代码: def parse(self, response): selector = Selector(response) sites = selector.xpath("//
完整的 Node.js 菜鸟,所以不要评判我...... 我有一个简单的要求。爬取网站,查找所有产品页面,并保存产品页面中的一些数据。 说的更简单,做的更简单。 查看 Node.js 示例,我找不到类
我花了很多时间玩弄和使用谷歌,但我无法解决我的问题。我是 Scrapy 的新手,希望你能帮助我。 部分有效的爬虫:我从 MySQL 数据库中定义我的 start_requests url。使用“par
老方法 当我以前在需要内容被搜索引擎索引的项目中异步加载页面时,我使用了一种非常简单的技术,那就是 Page $('#example').click(function(){
我正在尝试使用 Scrapy 抓取 ajax 站点,网址是 http://www.target.com/p/bounty-select-a-size-white-paper-towels-12-meg
我正在尝试按照 NutchTutorial 运行基本爬网: bin/nutch crawl urls -dir crawl -depth 3 -topN 5 所以我已经安装了 Nutch,并使用 So
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我做了一个抓取脚本,通过爬行逐一抓取任何网站(要输入的url)的内部页面,获取其他内部url并处理它们以获取所有页面并提取其纯文本(剥离的html)。请参阅my previous回答。该脚本运行良好,
无论如何,驱动程序是否可以记住登录 session ,所以它不会带我回到登录页面(例如google-chrome)? 这就是我现在正在做的事情 public static void main(Stri
我是网络爬虫新手,我需要一些关于这两个 Node JS 爬虫的指导。 目标:我的目标是抓取网站并仅获取该域内的内部(本地)URL。我对任何页面数据或抓取不感兴趣。只是 URL。 我的困惑:使用 nod
我是一名优秀的程序员,十分优秀!