我正在制作一个 Python 脚本来搜索 Google 上的术语并仅获取 PDF 链接。
我正在尝试获取标有 <cite>
的“绿色”搜索结果.它们不是链接,只是标题。
这是我目前所拥有的:
from bs4 import BeautifulSoup
import requests
import re
url = "http://www.google.com/search?q=shakespeare+pdf"
get = requests.get(url).text
soup = BeautifulSoup(get)
pdf = re.compile(r"\.(pdf)")
cite_pdfs = soup.find_all(pdf, class_="_Rm")
print cite_pdfs
但是,该列表仅返回 []
即什么都没有。
最佳答案
这是一个很好的实现。我使用了 hdr request from urllib2为了通过 HTTP Error 403: Forbidden
from BeautifulSoup import BeautifulSoup
import urllib2
site= "http://www.google.com/search?q=shakespeare+pdf"
hdr = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding': 'none',
'Accept-Language': 'en-US,en;q=0.8',
'Connection': 'keep-alive'}
req = urllib2.Request(site, headers=hdr)
try:
page = urllib2.urlopen(req).read()
soup = BeautifulSoup(page)
ka=soup.findAll('cite',attrs={'class':'_Rm'})
for i in ka:
print i.text
except urllib2.HTTPError, e:
print e.fp.read()
这是结果,
davidlucking.com/documents/Shakespeare-Complete%20Works.pdf
www.artsvivants.ca/pdf/.../shakespeare_overvie...
www.folgerdigitaltexts.org/PDF/Ham.pdf
sparks.eserver.org/.../shakespeare-tempest.pdf
manybooks.net/.../shakespeetext94shaks12.htm...
www.w3.org/People/maxf/.../hamlet.pdf
www.adweek.com/.../free...shakespeare.../1868...
www.goodreads.com/ebooks/.../1420.Hamlet
calhoun.k12.il.us/teachers/wdeffenbaugh/.../Shakespeare%20Sonnets.pdf
www.freeclassicebooks.com/william_shakespea...
关于python - BeautifulSoup 从 Google 获取 <cite> 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31218983/
我在 Ubuntu 8.10 机器上运行 Emacs 23.1.1 和 AucTeX 11.85。打开 tex 文件后,我第一次尝试使用\cite{} 命令的自动完成功能,我得到 “引用:信息不可用,
在 blah.tex ,我有一个 \cite{blah} 我在 blah.bib 中有一个 'blah' 条目 我运行我的文件: latex blah.tex && blah.tex && dvipd
我正在尝试在 Doxygen 中使用 \cite 来生成引用书目页面以及文本中的引用。我的搜索路径中有 bibtex 和正确的 .bib 文件。我已将 .bib 文件添加到 CITE_BIB_FILE
我一直使用 HTML 直接用引文,然后如果我想链接到那个,我把链接放在引文周围,像这样: Example Citation> 对我来说这似乎是最合乎逻辑的,因为链接不是引用的一部分——我在链接中使用引
我开发的其中一个网站有很多相互链接的信息;我们有公司,我们为这些公司提供产品。公司页面链接到列出该公司产品的页面,反之亦然。 来自HTML spec : CITE: Contains a citati
cite我认为属性指定了引用文本的来源地址,但谁使用此信息? 例如: “A quote” Person quoted 最终用户在普通浏览器中看不到引用文本的来源
如何使 CITE 标签完全缩进?我已经测试了所有的 padding-left: 200px; margin-left: 200px; text-indent: 200px; 在所有情况下,只有第一行受
我有这个 OneTwo 在 css 中有没有一种方法可以说第一个引用将是粗体,第二个是斜体,无需编辑上面的代码? 最佳答案 使用 CSS3,您应该能够使用以下样式完成此操作: cite:
html 元素应该比仅仅使用 传达更多的语义信息。 .但是它们在用途和目的上的核心区别是什么? 最佳答案 绕过引用。 绕过强调的文本。它们与搜索引擎和屏幕阅读器等事物具有完全不同的语义。 关于ht
、和 的有效使用
q、blockquote 和 cite 的使用是否有效? Life is what happens when you're busy making other plans John Lennon 或
这是 Blockquote、q 和 cite 的正确用法吗? Type HTML in the textarea above, and it will magically appear in the
什么是 HTMLElement 等元素的类型 和许多其他人 ? 根据 MDN 的 HTML elements reference , 元素比 HTMLElement 下的类型多得多(参见 thi
我使用 biblatex,我基本上一直使用 \textcite。如果我能让 \cite 像 \textcite 那样显示,它会更快(并允许我使用一些 emacs reftex 宏)。我使用 style
我有this file : ////a{}//ip:78.138.105.143 - Bingimg,.cbtn,.sb_meta li,.exp_trwr .sc_rc1,.topBar .bg,.
我正在制作一个 Python 脚本来搜索 Google 上的术语并仅获取 PDF 链接。 我正在尝试获取标有 的“绿色”搜索结果.它们不是链接,只是标题。 这是我目前所拥有的: from bs4 i
Example of my code using the text align syntax. Paul M. Barrett, The New York Times Book Review 最佳
我需要使引用属性可见,即。在我的网页上显示 block 引用的 url。有人告诉我只使用 CSS,不使用 html。 这是我目前在 html 中使用的内容: text from wiki 我认为 C
, , and 之间有什么区别? HTML 标签 ? 在大多数浏览器中都呈现相同的默认样式。 这些标签背后有什么意义吗? 谁能举例说明这些标签可以在哪里使用? 最佳答案 用于引用(资源或其作者)。它
大家好: 我很想从大量的 Google 搜索结果页面中获取一些信息。我唯一需要的是一堆 中的 URL。 HTML 标签。 我无法以任何其他适当的方式获得解决方案来处理这个问题,所以现在我转向 rub
我使用文档类型:XHTML Mobile Profile 1.2、XML version="1.0 和 Content-Type "application/xhtml+xml" 是否可以禁用或阻止标
我是一名优秀的程序员,十分优秀!