gpt4 book ai didi

html - 如何使用 Perl 有效地提取 HTML 内容?

转载 作者:太空宇宙 更新时间:2023-11-04 15:26:18 26 4
gpt4 key购买 nike

我正在用 Perl 编写一个爬虫程序,它必须提取驻留在同一服务器上的网页的内容。我目前正在使用 HTML::Extract模块来完成这项工作,但我发现该模块有点慢,所以我查看了它的源代码,发现它没有为 LWP::UserAgent 使用任何连接缓存。 .

我最后的手段是抢HTML::Extract的源代码并修改它以使用缓存,但我真的想尽可能避免这种情况。有谁知道可以更好地执行相同工作的其他模块吗?我基本上只需要抓取 <body> 中的所有文本。删除了 HTML 标签的元素。

最佳答案

关于html - 如何使用 Perl 有效地提取 HTML 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1409799/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com