gpt4 book ai didi

java - 无法使用boilerpipe解析纽约时报的文章

转载 作者:行者123 更新时间:2023-12-01 11:53:36 25 4
gpt4 key购买 nike

我正在尝试从“纽约时报”网址获取新闻文章,但它没有给出任何输出,但如果我尝试获取任何其他报纸,它会给出输出。我想知道我的代码是否有问题或者boilerpipe无法获取它。另外,有时输出不是英语,这意味着它主要以 unicode 显示“每日新闻”,我也想知道原因。 导入 java.io.InputStream; 导入java.net.URL;

import org.xml.sax.InputSource;

import de.l3s.boilerpipe.document.TextDocument;
import de.l3s.boilerpipe.extractors.ArticleExtractor;
import de.l3s.boilerpipe.extractors.DefaultExtractor;
import de.l3s.boilerpipe.sax.BoilerpipeSAXInput;

class ExtractData
{
public static void main(final String[] args) throws Exception
{
URL url;
url = new URL(
"http://www.nytimes.com/2013/03/02/nyregion/us-judges-offer-addicts-a-way-to-avoid-prison.html?hp&_r=0");

// NOTE We ignore HTTP-based character encoding in this demo...
final InputStream urlStream = url.openStream();
final InputSource is = new InputSource(urlStream);
final BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
final TextDocument doc = in.getTextDocument();
urlStream.close();

// You have the choice between different Extractors

//System.out.println(DefaultExtractor.INSTANCE.getText(doc));
System.out.println(ArticleExtractor.INSTANCE.getText(doc));
}
}

最佳答案

Nytimes.com 有一个付费墙,它返回 HTTP 303对于您的要求,您可以尝试handle the redirect and cookies 。尝试其他用户代理字符串也可能有效。

关于java - 无法使用boilerpipe解析纽约时报的文章,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28606469/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com