gpt4 book ai didi

javascript - 如何确定文本文件下载的底层URL

转载 作者:行者123 更新时间:2023-12-02 20:24:31 25 4
gpt4 key购买 nike

在下面的页面上可以下载 txt 文件。我对 txt 部分中的第一个文件感兴趣。

如何获取 URL。我可以拉它。我如何获取不存在的网址包含带有 python 的 java 脚本。

今天是:volume.20110218.txt。

http://www.optionsclearing.com/webapps/trade-volume-download

最佳答案

你的问题有点含糊。听起来您想使用 urllib2BeautifulSoup 模块做一些事情。

使用urllib2的函数从基本URL获取HTML,使用BeautifulSoup解析它并使用目标(src的值)表中(第一个 TXT?) anchor 标记的属性)打开另一个连接并提取这些内容。然后打开本地文件(或子进程)并将第二次获取的内容提供给其中。

使用 BeautifulSoup 最困难的部分是找到唯一标识您想要提取的内容部分的特征。现代 HTML 非常丑陋,并且往往由用于生成它的各种工具和库嵌入大量无关的垃圾。 (提示:“class”一词是 Python 保留关键字,也是 HTML 中的常见属性。因此,您会发现通过将“class”属性/模式对包装在字典中来将它们传递给 BeautifulSoup 函数是最简单的:{'class': some_pattern} 而不是用于大多数其他参数的更常见的 keyword=pattern 形式)。

要处理您可能想要阅读的 JavaScript:

What's a good tool to screen-scrape with Javascript support?

目前,听起来您最好的选择可能是设置基于 Java 的 HTMLUnit包作为网关,然后编写 Python 来连接并控制它。您也可以尝试Selenium控制真实的浏览器 session 并通过进程间通信机制从中提取信息。

关于javascript - 如何确定文本文件下载的底层URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5060632/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com