gpt4 book ai didi

java - 使用Java从动态网站中提取链接

转载 作者:太空宇宙 更新时间:2023-11-04 07:51:24 24 4
gpt4 key购买 nike

我正在尝试从网站中提取所有链接。我在以前的程序中使用 Jsoup 来执行此操作,这里的问题是通过按“更多”按钮生成“更多内容”,并且它不会更改页面,它只是加载更多内容,因此我不确定如何使用 Java 和 Jsoup 查看所有可用链接。

网站是http://seekingalpha.com/symbol/msft我只是想提取特定公司(例如 Microsoft)的文章的所有链接。

最佳答案

您需要给自己找一些可以监视您通过网络发出的请求的东西。您可以使用 Chrome 中的“网络”选项卡查看 http 流量,但我个人喜欢 Charles。无论如何,如果您检查单击“更多”按钮时发生的情况,您会看到正在发出 POST 请求(当然使用 AJAX),如下所示:

http://seekingalpha.com/account/ajax_headlines_content 200 POST Seekingalpha.com/account/ajax_headlines_content 432 毫秒 5.94 KB 完整

标题中的参数是:

全部输入第2页蛞蝓微软公司is_symbol_page true

因此,如果我是您,我会通过使用页面参数计数发出 POST 请求来模拟这一点,直到您获得所需的所有内容为止。顺便说一句,返回的内容是一个易于解析的 html 片段,例如:

> <div class="symbol_articles_list mini_category">
> <div>
> <ul>
> <li>
> <div class="fl">
> <a class="small_picture" href="/author/the-part-time-investor">
> <img height="20" width="20" src="http://static1.cdn-seekingalpha.com/images/users_profile/000/541/113/small_pic.png?1352646193"/>
> </a>
> </div>
> <div class="content">
> <div class="symbol_article">
> <a href="/article/1109901-microsoft-and-4-other-undervalued-stocks"
> sasource="portfolio_rel">Microsoft And 4 Other Undervalued Stocks</a>
> <div class="date_on_by">
> <a sasource="portfolio_rel" href="/author/the-part-time-investor">The Part-time Investor</a>
> <span class="bullet">&bull;</span>
> Mon, Jan 14<span class='bullet'>&bull;</span> <span class='comments'><a
> href='/article/1109901-microsoft-and-4-other-undervalued-stocks#comments_header'
> sasource='headlines_tabs'>44&nbsp;Comments</a></span>
> </div>
> </div>
> </div>
> <div class="cleaner"></div>
> </li>

关于java - 使用Java从动态网站中提取链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14407950/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com