gpt4 book ai didi

java - 使用动态生成的内容抓取页面

转载 作者:行者123 更新时间:2023-11-30 05:10:10 25 4
gpt4 key购买 nike

我一直在使用 java.net 爬虫来构建自定义爬虫。问题在于动态生成的内容,例如博客上的评论。考虑以下页面 http://www.avc.com/a_vc/2010/09/contrarian-investing.html 。如果您抓取页面并获取来源,则无法查看页面的全部内容。我需要这些内容的原因是因为我正在执行一些关键字密度计算。因此,我需要我的应用程序能够准确地看到浏览器会看到的内容。有什么建议吗?

我查看了apache的httpclient,但是,它与上面的爬虫相同,只是返回源。我认为该特定页面有一个 javascript 片段,它返回来自另一个域的评论,所以我想我需要的是在下载源代码后解析源代码,然后获取文本。如有任何帮助,我们将不胜感激。

谢谢

山姆

最佳答案

Web 测试 API 具有 JS 支持。我认为 HTTPUnit 有一定的能力使用 Rhino 执行 Javascript。我已经有一段时间没有使用它了,但我似乎记得它不太好用。或者,您可以尝试 Selenium RC,我认为它对于此类事情非常强大,但同样不确定它是否能具体解决您的问题。

Selenium - http://seleniumhq.org/projects/remote-control/HTTPUnit - http://httpunit.sourceforge.net/

关于java - 使用动态生成的内容抓取页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3696828/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com