- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试解析维基百科页面。我目前同时运行 100 个Thread
。问题是这样的;当我尝试解析整个页面上下文时,有时上下文已损坏或只是丢失了一些段落。我真的不明白问题出在哪里。
该项目有 2 个部分。一是查找页面中的所有 href 链接
。(工作正常)。另一种是在页面中找到一个简单的文本(无法正常工作)。
Document doc = null;
try {
doc = Jsoup.connect(link).get();
} catch (Exception e) {
e.printStackTrace();
return;
}
Elements divs = doc.select("div#bodyContent");
Elements texts = divs.select("div#mw-content-text");
Elements paragraphs = texts.select("p");
//this part is working correctly(finding all links)
Elements links = paragraphs.select("a");
Elements headerContainer = doc.select("h1#firstHeading");
//this part is not working correctly.(Some parts are corrupted or even in one sentence it gets some words but others might be missing)
StringBuilder bl = new StringBuilder();
for(Element elem : paragraphs){
bl.append(Jsoup.parse(elem.html()).text());
}
String p = bl.toString();
编辑1:https://tr.wikipedia.org/wiki/%C4%B0spanya示例链接就是这个。
此页面的上下文是:
西类牙的Portekizce konuşan gruplar bulunmaktadır.Tatil sezonu başladığında Almanya'dan,Polonya'dan ve birçok Güney Amerika ülkesinden özellikle tatil yörelerine çalışmaya gelen birçok kişi bulunur。科斯塔布兰卡 (Costa Blanca) 是太阳海岸 (Costa del Sol) 的旅游胜地,阿尔曼 (Alman) 和我的语言是这样的。西类牙人在西类牙的土地上有很多东西,但在西类牙,你可以在西类牙的土地上使用 Fransızca bilmektedirler。 Ancak halkın %96'si resmi olarak Katolik'tir。 2002 年,社会学研究中心在 2002 年成立了 80% 的社会学研究中心。 %12'lik kesimin ise herhangi bir dine mensup olmadığı ortaya çıkmıştır. Katoliklerin de %54'unün çok az kiliseye gittiği veya hiç gitmediği bulunmuştur。 Diğer katoliklerin de %15'i ara sıra, 10%'u ayda birkaç kez, 19%'u ise her pazar kiliseye gittğini belirtmiştir. Tüm ISPanyol halkının %22'si ise en az ayda bir dini görevlerini yerine getirdiğini belirtmiştir.Katolik Kilisesi Papalıkla yapılan bir anlaşmadan dolayı íspanya hükûmeti tarafından desteklenen bir kilishedir.西类牙卡托利克·基利塞西 (Katolik Kilisesi) 位于南拉丹 (Toplananyard) 的顶部,并在顶部放置了卡马德 (Kalmadığından),并将其放置在顶部。 Hıristiyanların en çok ziyaret ettiği yerlerden biri olan Santiago de Compostela da Áspanya'da bulunmaktadır.Nüfusun %2.5'ini Islam, %1'den daha az kısmını ise Yahudi dinine mensup kişiler oluşturmaktadır.Madrid Bars elonaKonuyla ilgili diğer Wikimedia sayfaları :Commons'ta ïspanya ile ilgili çoklu ortam dosyaları bulunmaktadır.Vikisöz'de ïspanya ile ilgili alıntılar bulunmaktadır.
最佳答案
也许是因为 Jsoup
具有默认的响应大小。尝试将您的 maxBodySize
设置为更大的数字。
例如,Connection.Reponse 响应 = Jsoup.connect(url)
.maxBodySize(5000000)
.execute()//以字节为单位
关于java - JSoup 工作错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33947608/
我已经使用 vue-cli 两个星期了,直到今天一切正常。我在本地建立这个项目。 https://drive.google.com/open?id=0BwGw1zyyKjW7S3RYWXRaX24tQ
您好,我正在尝试使用 python 库 pytesseract 从图像中提取文本。请找到代码: from PIL import Image from pytesseract import image_
我的错误 /usr/bin/ld: errno: TLS definition in /lib/libc.so.6 section .tbss mismatches non-TLS reference
我已经训练了一个模型,我正在尝试使用 predict函数但它返回以下错误。 Error in contrasts<-(*tmp*, value = contr.funs[1 + isOF[nn]])
根据Microsoft DataConnectors的信息我想通过 this ODBC driver 创建一个从 PowerBi 到 PostgreSQL 的连接器使用直接查询。我重用了 Micros
我已经为 SoundManagement 创建了一个包,其中有一个扩展 MediaPlayer 的类。我希望全局控制这个变量。这是我的代码: package soundmanagement; impo
我在Heroku上部署了一个应用程序。我正在使用免费服务。 我经常收到以下错误消息。 PG::Error: ERROR: out of memory 如果刷新浏览器,就可以了。但是随后,它又随机发生
我正在运行 LAMP 服务器,这个 .htaccess 给我一个 500 错误。其作用是过滤关键字并重定向到相应的域名。 Options +FollowSymLinks RewriteEngine
我有两个驱动器 A 和 B。使用 python 脚本,我在“A”驱动器中创建一些文件,并运行 powerscript,该脚本以 1 秒的间隔将驱动器 A 中的所有文件复制到驱动器 B。 我在 powe
下面的函数一直返回这个错误信息。我认为可能是 double_precision 字段类型导致了这种情况,我尝试使用 CAST,但要么不是这样,要么我没有做对...帮助? 这是错误: ERROR: i
这个问题已经有答案了: Syntax error due to using a reserved word as a table or column name in MySQL (1 个回答) 已关闭
我的数据库有这个小问题。 我创建了一个表“articoli”,其中包含商品的品牌、型号和价格。 每篇文章都由一个 id (ID_ARTICOLO)` 定义,它是一个自动递增字段。 好吧,现在当我尝试插
我是新来的。我目前正在 DeVry 在线学习中级 C++ 编程。我们正在使用 C++ Primer Plus 这本书,到目前为止我一直做得很好。我的老师最近向我们扔了一个曲线球。我目前的任务是这样的:
这个问题在这里已经有了答案: What is an undefined reference/unresolved external symbol error and how do I fix it?
我的网站中有一段代码有问题;此错误仅发生在 Internet Explorer 7 中。 我没有在这里发布我所有的 HTML/CSS 标记,而是发布了网站的一个版本 here . 如您所见,我在列中有
如果尝试在 USB 设备上构建 node.js 应用程序时在我的树莓派上使用 npm 时遇到一些问题。 package.json 看起来像这样: { "name" : "node-todo",
在 Python 中,您有 None单例,在某些情况下表现得很奇怪: >>> a = None >>> type(a) >>> isinstance(a,None) Traceback (most
这是我的 build.gradle (Module:app) 文件: apply plugin: 'com.android.application' android { compileSdkV
我是 android 的新手,我的项目刚才编译和运行正常,但在我尝试实现抽屉导航后,它给了我这个错误 FAILURE: Build failed with an exception. What wen
谁能解释一下?我想我正在做一些非常愚蠢的事情,并且急切地等待着启蒙。 我得到这个输出: phpversion() == 7.2.25-1+0~20191128.32+debian8~1.gbp108
我是一名优秀的程序员,十分优秀!