- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试自动从公共(public)网站下载字幕。单击下载链接(西类牙语为 Descargar)后即可访问字幕。检查网站的代码,我可以看到链接是 jQuery 事件:
我猜这个事件中有一个函数处理下载(我对 JS 一点都不熟悉):
function(a) {
if (ajaxflagon()) return !1;
var r = $(this).attr("rel");
if (r = r.split(","), 3 == r.length) var e = "/updated/" + r[0] + "/" + r[1] + "/" + r[2];
else var e = "/original/" + r[0] + "/" + r[1];
ga("send", "pageview", "/" + e, {
title: "Descargando " + $(this).attr("title")
}), $(this).attr("href", e), ajaxflagoff()
}
到目前为止,我有找到正确链接的代码:
import urllib.request as urlRequest
from bs4 import BeautifulSoup
# Subtitles for a specific TV show
urlpage = 'https://www.tusubtitulo.com/season/4674/1'
# pretend to be a chrome 47 browser on a windows 10 machine
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)"
}
req = urlRequest.Request(urlpage, headers=headers)
# open the url
url = urlRequest.urlopen(req)
# get the source code
source_code = url.read()
# parse the html using beautiful soup and store in variable 'soup'
soup = BeautifulSoup(source_code, 'html.parser')
results = []
for lang in soup.findAll("td", class_="language"):
# only interested in the spanish language
if "Español (España)" in str(lang):
for element in lang.parent.findAll("a", class_="bt_descarga"):
results.append(element)
它缺少的是下载部分:(我该怎么做?
提前致谢。
最佳答案
您可以在 Python
中实现该 JS
事件函数并创建下载 URL
。
最后,您可以使用 URL
下载字幕。
以下是仅获取西类牙语订阅者的方法:
from shutil import copyfileobj
import requests
from bs4 import BeautifulSoup
base_url = "https://www.tusubtitulo.com"
season = "/season/4674/1"
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:95.0) Gecko/20100101 Firefox/95.0",
"Referer": f"{base_url}{season}",
}
def get_rel_attributes(page: str):
return [
a["rel"][0] for a in
BeautifulSoup(page, "lxml").select(".bt_descarga")[1::3] # this gets only the Spanish subs
]
# This is the JS function translated to Python that's responsible for
# building the subtitle download urls.
def get_download_urls(rel_attributes: list):
src_urls = []
for item in rel_attributes:
elements = item.split(",")
one, two, three = elements
if len(elements) == 3:
src_urls.append(f"{base_url}/updated/{one}/{two}/{three}")
else:
src_urls.append(f"{base_url}/original/{one}/{two}")
return src_urls
def downloader(target_url: str, conn: requests.Session):
response = conn.get(target_url, headers=headers, stream=True)
file_name = (
response.headers["Content-Disposition"]
.split("=", -1)[-1]
.replace('"', "")
.encode('latin-1')
.decode('utf-8')
)
print(f"Fetching {file_name}...")
with open(file_name, "wb") as output:
copyfileobj(response.raw, output)
if __name__ == "__main__":
with requests.Session() as connection:
source_page = connection.get(f"{base_url}{season}", headers=headers).text
for url in get_download_urls(get_rel_attributes(source_page)):
downloader(url, connection)
您应该在运行脚本的文件夹中看到此输出和 10 个文件:
Fetching Invasion (2021) 1x01 - Last Day (Español (España)).srt...
Fetching Invasion (2021) 1x02 - Crash (Español (España)).srt...
Fetching Invasion (2021) 1x03 - Orion (Español (España)).srt...
Fetching Invasion (2021) 1x04 - The King is Dead (Español (Latinoamérica)).srt...
Fetching Invasion (2021) 1x05 - Going Home (Español (España)).srt...
Fetching Invasion (2021) 1x06 - Home Invasion (Español (España)).srt...
Fetching Invasion (2021) 1x07 - Hope (Español (España)).srt...
Fetching Invasion (2021) 1x08 - Contact (Español (España)).srt...
Fetching Invasion (2021) 1x09 - Full of Stars (Español (España)).srt...
Fetching Invasion (2021) 1x10 - First Day (Español (España)).srt...
关于python - bs4 下载文件甚至 jQuery 点击,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70711307/
当我尝试通过我的 .exe 文件从 url 下载 .pdf 文件时出现以下错误。 The server committed a protocol violation. Section=Response
我是一家非营利组织的 G Suite 管理员,刚刚发现数据导出功能,这似乎是个人帐户的外卖。 导出文件已准备好,现在可以从 Google Cloud Platform Storage 中的存储桶下载。
导航 引言 总体思路 七牛云相关的配置文件 获取七牛云上传token 相关类定义 核心代码实现 获取七牛云图片下载链接 公开空
这不是后端编程问题。我只能修改标记或脚本(或文档本身)。我在这里问的原因是因为我对适当术语的所有搜索都不可避免地导致有关编程此功能的问题和解决方案。我不是试图通过编程来强制它;我必须找出此 PDF 行
您好,我已在 Google AdSense 中注册,我想使用适用于 iOS 的 SDK,但目前我找不到 SDK 下载链接。 我的申请已获批准。 任何人都知道如何下载这个sdk。 我使用这个链接来描述如
我需要为当前在 SourceForge 上的 github 项目提供二进制文件和文档。在那里,我可以为我需要的下载提供一个目录结构,因为我必须为大约 10 个不同的操作系统提供几个版本。 github
我从 Canvas 下载绘图时遇到问题。这是我的代码: function downloadCanvas(link, canvasId, filename) { link.href =
ASP.NET 项目 我将使用 Azure 进行存储。问题(要求): 在我的项目中,我让注册用户下载文件。但我不希望用户将此下载链接分享给未注册的人(例如:我给注册用户的下载链接只能在他们的计算机上下
我编写了一个servlet,用于检查http header ,但我不知道为什么当页面加载时,它会自动开始下载。 /* * To change this template, choose To
我正在尝试将下载添加到我的网络浏览器,但遇到的问题是获取您尝试下载的文件的名称。这是我的下载代码: engine.locationProperty().addListener(new ChangeLi
我正在尝试下载网站的 html: String encoding = "UTF-8"; HttpContext localContext = new BasicHttpContext();
我制作了一个带有“开始下载”按钮的框架,用于从网站下载 JAR。 问题是每当我点击开始下载按钮时,整个框架就会卡住,直到下载完成,然后就正常了。 我该如何解决这个问题? 这是单击按钮时执行的代码 p
我得到这段代码来实现一些东西,它可以帮助我从给定的 URL 下载文件。 -(void)URLSession:(NSURLSession *)session downloadTask:(NSURLSes
我正在尝试创建一个 Controller 来使用流方法下载和上传文件,在我的例子中,所有文件都作为 Blob 保存在数据库中。我阅读了 Jboss Netty 的文档,但我认为这不是我的最佳解决方案。
下载并保存文件 let destination: DownloadRequest.DownloadFileDestination = { _, _ in // var fileURL = sel
使用 htaccess 我基本上试图禁止访问该页面,即 http://example.com , 但它仍然允许人们下载文件,如果他们有直接链接即 http://example.com/hi.zip .
我正在寻求将脚本与我的控制面板集成,并且由于我是新手脚本编写者而遇到问题。我想做的是用 1 个脚本下载一个文件并解压它。 示例: wget http://example.com/example.tar
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
这个问题在这里已经有了答案: Top techniques to avoid 'data scraping' from a website database (14 个答案) 关闭 5 年前。 我有
这个问题在这里已经有了答案: Reading and parsing email from Gmail using C#, C++ or Python (6 个答案) 关闭 7 年前。 我只是想,是
我是一名优秀的程序员,十分优秀!