gpt4 book ai didi

java - 如何在没有额外信息的情况下有效地从网页中提取文本

转载 作者:行者123 更新时间:2023-12-02 09:52:07 24 4
gpt4 key购买 nike

我有大约 100 万个网页列表,我想高效地从这些页面中提取文本。目前,我正在 python 中使用 BeautifulSoup 库从 HTML 中获取文本,并使用 request 命令获取网页的 html。这种方法除了文本之外还提取一些额外的信息,例如正文中是否列出了任何 javascript。

您能否建议我任何合适且有效的方法来完成这项任务。我查看了 scrapy,但看起来它会抓取特定的网站。我们可以向它传递特定网页的列表以从中获取信息吗?

提前谢谢您。

最佳答案

是的,您可以使用 Scrapy 以通用方式抓取一组 URL。

您只需在蜘蛛的 start_urls 列表属性上设置它们,或者重新实现 start_requests 蜘蛛方法以产生来自任何数据源的请求,然后实现您的parse 回调来执行您想要的通用内容提取。

您可以使用html-text从中提取文本,并使用常规 Scrapy 选择器提取其他数据,例如您提到的数据。

关于java - 如何在没有额外信息的情况下有效地从网页中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56252434/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com