gpt4 book ai didi

java - 在Java代码中,如何提取随机html页面的文本?

转载 作者:行者123 更新时间:2023-12-01 19:12:36 25 4
gpt4 key购买 nike

我是这样解决的:

String url = ("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/");

Document doc = Jsoup.parse(new URL(url), 2000);

Elements body = doc.select("body");

String s=body.text();

System.out.println(s);

我还有一个问题。我只想要没有标题的正文。谁能帮助我?

<小时/>

我需要一种从网站中提取文本的算法。我希望该文本不含标签、类等,并且我希望该算法可以应用于任何网页。

例如 this page

我需要正文:

MILANO - Il tanto atteso responso sui fabbisogni di patrimonio delle maggiori banche europee è arrivato. L'Eba (l'Autorità di controllo bancaria europea) ha stabilito la necessità, entro giugno 2012, di ricapitalizzare per ben 106,5 miliardi di euro per i 30 gruppi europei più importanti. Sui 70 gruppi considerati, invece, il deficit patrimoniale è di 160 miliard...............

对于this page

我需要正文:

TORINO - Effetto Chrysler sui conti Fiat. Il Lingotto archivia il terzo trimestre con utili in crescita a 17,6 miliardi (8,4 nello stesso trimestre 2010). Più che triplicato l’utile della gestione ordinaria che passa da 256 a 851 milioni. Due terzi arrivano da Detroit che................

谢谢

最佳答案

尝试boilerplate图书馆。

另一种选择是探索 Apache Tika ,这将以有意义的方式索引内容。

请注意,定义“正文”基本上是不可能的。如果您了解该网站,您可以尝试了解其模板并做出一些假设。跨随机站点执行此操作很困难,这就是诸如boilerpipe/tika之类的东西发挥作用的地方。

关于java - 在Java代码中,如何提取随机html页面的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7920314/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com