gpt4 book ai didi

python - 从 Mega.nz 文件中抓取文本 (Python)

转载 作者:行者123 更新时间:2023-12-01 01:53:10 26 4
gpt4 key购买 nike

我最近遇到了一个问题,我不知道该怎么办。我有很多 Mega.nz 文件的链接,我需要抓取这些文件的文本内容(页面上显示的文本),但我不知道该怎么做。例如,请参阅此存档: enter image description here

显然它上面有很多我需要获取的文本(特别是文件夹名称)(出于隐私原因而被模糊化)。但是,当我查看页面的源代码时,我得到以下信息:

enter image description here

该页面上的任何链接都不会指向任何文本信息!我通常会做的只是使用 Python 下载 HTML 源代码,然后对其进行分析,但显然这在这种情况下不起作用。我可以在 google chrome 中使用 Control + F 手动搜索每个存档的文本,但我有数百个这样的存档需要从中获取文本,因此该方法显然也不起作用。

我不太确定在这种情况下我能做什么。有什么方法可以获取此文本吗?

最佳答案

您使用什么库?我很确定您正在使用 requestsscrapy

对于此类网站,您最好使用 Selenium,

简单来说,selenium 允许您通过 Python 控制 Web 浏览器。主要特点是 DOM 中的 Javascript 被计算和执行,因此您可以访问“真正计算的”HTML 源。

我会做什么,

driver = selenium.webdriver.Chrome()
driver.get('http://www.mega.nz/egg/bacon/SPAM')
time.sleep(3)
raw_html = driver.page_source

它基本上调用 URL,等待 3 秒以确保所有内容都已加载并执行 Javascript,然后获取当前页面源。

之后,您只需将 raw_html 解析为 bs4.BeautifulSoup 实例并提取数据即可。

<小时/>

Ho,由于您似乎只计算此列表一次,因此您只需在浏览器上按 F12 键,找到 console 选项卡并推送一些 Javascript 即可提取列表:)

关于python - 从 Mega.nz 文件中抓取文本 (Python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50525017/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com