- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我刚开始使用 Python 从网络中提取数据。感谢其他一些帖子和这个webpage ,我想出了如何使用模块 mechanize
将数据提交到表单。
现在,我一直在寻找如何提取结果。提交表单时有很多不同的结果,但如果我可以访问 csv 文件,那将是完美的。我假设您必须使用模块 re
,但是您如何通过 Python 下载结果?
运行作业后,csv 文件在这里:Summary => Results => Download Heavy Chain Table(您可以直接点击“load example”查看网页运行情况)。
import re
import mechanize
br = mechanize.Browser()
br.set_handle_robots(False) # ignore robots
br.set_handle_refresh(False) # can sometimes hang without this
url = 'http://circe.med.uniroma1.it/proABC/index.php'
response = br.open(url)
br.form = list(br.forms())[1]
# Controls can be found by name
control1 = br.form.find_control("light")
# Text controls can be set as a string
br["light"] = "DIQMTQSPASLSASVGETVTITCRASGNIHNYLAWYQQKQGKSPQLLVYYTTTLADGVPSRFSGSGSGTQYSLKINSLQPEDFGSYYCQHFWSTPRTFGGGTKLEIKRADAAPTVSIFPPSSEQLTSGGASVVCFLNNFYPKDINVKWKIDGSERQNGVLNSWTDQDSKDSTYSMSSTLTLTKDEYERHNSYTCEATHKTSTSPIVKSFNRNEC"
br["heavy"] = "QVQLKESGPGLVAPSQSLSITCTVSGFSLTGYGVNWVRQPPGKGLEWLGMIWGDGNTDYNSALKSRLSISKDNSKSQVFLKMNSLHTDDTARYYCARERDYRLDYWGQGTTLTVSSASTTPPSVFPLAPGSAAQTNSMVTLGCLVKGYFPEPVTVTWNSGSLSSGVHTFPAVLQSDLYTLSSSVTVPSSPRPSETVTCNVAHPASSTKVDKKIVPRDC"
# To submit form
response = br.submit()
content = response.read()
# print content
result = re.findall(r"Prob_Heavy.csv", content)
print result
打印 content
时,我感兴趣的行如下所示:
<h2>Results</h2><br>
Predictions for Heavy Chain:
<a href='u17003I9f1/Prob_Heavy.csv'>Download Heavy Chain Table</a><br>
Predictions for Light Chain:
<a href='u17003I9f1/Prob_Light.csv'>Download Light Chain Table</a><br>
所以问题是:如何下载/访问 href='u17003I9f1/Prob_Heavy.csv'
?
最佳答案
这是一个使用 BeautifulSoup
和 requests
来避免使用正则表达式解析 HTML 的快速粗略示例。 sudo pip install bs4
如果你有 pip
但还没有安装 BeautifulSoup
。
import re
import mechanize
from bs4 import BeautifulSoup as bs
import requests
import time
br = mechanize.Browser()
br.set_handle_robots(False) # ignore robots
br.set_handle_refresh(False) # can sometimes hang without this
url_base = "http://circe.med.uniroma1.it/proABC/"
url_index = url_base + "index.php"
response = br.open(url_index)
br.form = list(br.forms())[1]
# Controls can be found by name
control1 = br.form.find_control("light")
# Text controls can be set as a string
br["light"] = "DIQMTQSPASLSASVGETVTITCRASGNIHNYLAWYQQKQGKSPQLLVYYTTTLADGVPSRFSGSGSGTQYSLKINSLQPEDFGSYYCQHFWSTPRTFGGGTKLEIKRADAAPTVSIFPPSSEQLTSGGASVVCFLNNFYPKDINVKWKIDGSERQNGVLNSWTDQDSKDSTYSMSSTLTLTKDEYERHNSYTCEATHKTSTSPIVKSFNRNEC"
br["heavy"] = "QVQLKESGPGLVAPSQSLSITCTVSGFSLTGYGVNWVRQPPGKGLEWLGMIWGDGNTDYNSALKSRLSISKDNSKSQVFLKMNSLHTDDTARYYCARERDYRLDYWGQGTTLTVSSASTTPPSVFPLAPGSAAQTNSMVTLGCLVKGYFPEPVTVTWNSGSLSSGVHTFPAVLQSDLYTLSSSVTVPSSPRPSETVTCNVAHPASSTKVDKKIVPRDC"
# To submit form
response = br.submit()
content = response.read()
# print content
soup = bs(content)
urls_csv = [x.get("href") for x in soup.findAll("a") if ".csv" in x.get("href")]
for file_path in urls_csv:
status_code = 404
retries = 0
url_csv = url_base + file_path
file_name = url_csv.split("/")[-1]
while status_code == 404 and retries < 10:
print "{} not ready yet".format(file_name)
req = requests.get(url_csv )
status_code = req.status_code
time.sleep(5)
print "{} ready. Saving.".format(file_name)
with open(file_name, "wb") as f:
f.write(req.content)
在 REPL 中运行脚本:
Prob_Heavy.csv not ready yet
Prob_Heavy.csv not ready yet
Prob_Heavy.csv not ready yet
Prob_Heavy.csv ready. Saving.
Prob_Light.csv not ready yet
Prob_Light.csv ready. Saving.
>>>
>>>
关于php - Python : extract . 将数据提交到具有机械化的表单后的 csv 结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41452036/
警告在块AccessRights〜Groups〜Navigator中[mini-css-extract-plugin] 之间的顺序冲突: css ../node_modules/css-loader?
解决练习问题“对于数据库中的每个月/年组合,交易表的销售日期列中有多少个不同的日期?”我发现一个有效的查询,它显然结合了年份和月份 SELECT DISTINCT (extract(year from
我有一个名为 Student 的 MySQL 表,它有一个名为 entry_date 的列,类型为 date。我想选择以下形式的 entry_date: November, 2014 即它将显示 en
我已经使用 iMacros 很长时间了,我有一个代码可以提取文本并使用它来创建我需要的特定 URL。 事情是这样的: #I can extract the XPath text with this.
我将一个 session 从 Fiddler 导出到 saz 文件。此 session 仅包含 jpg 文件,我想知道 - 如何快速轻松地从 saz 中提取 jpg 文件? 谢谢! 最佳答案 提取 J
应用 FFT 后,我得到了具有多个频率段的频谱。如何使用倒谱方法从该频谱中获取基频? 我做了很多研究,尝试了很多代码,并在 stackoverflow 上问了三遍(这很有帮助),我非常确定倒谱方法是在
我正在寻找一种解压缩或反编译微软代理的方法。 例如梅林代理 我想提取动画/图像。到目前为止我发现的最好方法是。用粉红色背景录制我的屏幕。并分割视频......但这不是一个很好的做法...... 有小费
我只想从youtube链接中提取MP3格式的音频,但是如果不从命令行使用youtube-dl选项调用--extract-audio,就无法弄清楚该如何做。在YoutubeDL类中是否有一种类似于her
我有一个 Azure 管道,应该构建一个项目并将 jar 复制到 Artifactory。这是应该安装节点的 yml: - task: NodeTool@0 inputs: version
例如,如果您有一个如下所示的关联数组: $array = array('first-value' => 'Hello'); 然后你要提取它: extract($array); 由于变量名称中不能使用连
我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。 我正在寻找一种服务,允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。 (示例:x 的最大授权长度是多少?)
我是 RDF 初学者,我想从 HTML 中提取 RDF我正在使用 GRDDL,但它不太适合我,我每次都会收到安全异常:(您能向我推荐另一个工具吗? 感谢您的帮助。 最佳答案 我通常使用说唱歌手,你可以
我很好奇,PHP 的函数是如何实现的extract有用吗?我想做一个稍微修改的版本。我希望我的函数在从蛇形符号到驼峰式的数组键中提取时生成变量名,例如: 现在 extract 这样做: $array
如果我使用 PHP 的 extract() 函数从数组中导入变量,同名变量会被覆盖吗?我问的原因是因为我正在尝试初始化所有变量。 感谢您的宝贵时间。 最佳答案 默认情况下它将覆盖。 http://ph
我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。 我正在寻找一种服务,允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。 (示例:x 的最大授权长度是多少?)
我正在尝试在 Python 中运行大量模拟,因此我尝试使用多处理来实现它。 import numpy as np import matplotlib.pyplot as plt import mult
尝试从主机名-rt45_34_we_35 中提取主机名-rt45。我正在使用/(.)_?./g。这似乎不起作用。我已经查看了正则表达式文档。想用?会使它变得贪婪并在第一个下划线处停止。我错过了什么?
我目前正在从事一个数据挖掘项目。我必须阅读 C# 源代码,并且必须找到连接 SQL 语句的位置。我真正想要的是获取连接字符串变量名称的名称。 示例: stat = "SELECT * FROM CUS
我正在订单表上运行查询,以计算每个用户在 6 个月前一个月内的任何一天发出的请求总数(例如:2013 年 8 月)。 这工作正常:- SELECT userid,firstname,surname,s
我对 PHP 很陌生,并且到处都看到不建议使用提取函数。我正在从 mysql 表中获取数据来填充网站的一部分。因此我不知道该表可以有多少行。 所以我使用 extract 函数,它为每行提供一个数组数组
我是一名优秀的程序员,十分优秀!