- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经使用crawler4j几个月了。我最近开始注意到它卡在某些网站上并且永远不会返回。推荐的解决方案是将 resumable 设置为 true。这对我来说不是一个选择,因为我的空间有限。我进行了多次测试,发现挂起是非常随机的。它将爬行 90-140 个网址,然后停止。我以为可能是该网站的问题,但网站 robots.txt 中没有任何可疑之处,并且所有页面均响应 200 OK。我知道爬虫没有爬行整个网站,否则它会关闭。可能是什么原因造成的?我应该从哪里开始?
有趣的是我用非阻塞启动爬虫,然后是一个 while 循环检查状态
controller.startNonBlocking(CrawlProcess.class, numberOfCrawlers);
while(true){
System.out.println("While looping");
}
当爬虫挂起时,while 循环也停止响应,但线程仍然 Activity 。这意味着整个线程没有响应。因此,我无法发送关闭命令。
更新我弄清楚是什么导致它挂起。我在访问方法中的 mysql 步骤中运行了一个存储。该步骤如下所示:
public void insertToTable(String dbTable, String url2, String cleanFileName, String dmn, String AID,
String TID, String LID, String att, String ttl, String type, String lbl, String QL,
String referrer, String DID, String fp_type, String ipAddress, String aT, String sNmbr) throws SQLException, InstantiationException, IllegalAccessException, ClassNotFoundException{
try{
String strdmn = "";
if(dmn.contains("www")){
strdmn = dmn.replace("http://www.","");
}else{
strdmn = dmn.replace("http://","");
}
String query = "INSERT INTO "+dbTable
+" (url,filename, dmn, AID, TID, LID, att, ttl, type, lbl, tracklist, referrer, DID, searchtype, description, fp_type, ipaddress," +
" aT, sNmbr, URL_Hash, iteration)VALUES('"
+url2+"','"+cleanFileName+"','"+strdmn+"','"+AID+"','"+TID+"','"+LID+"','"+att+"','"+ttl+"','"+type+"'" +
",'"+lbl+"','"+QL+"','"+dmn+"','"+DID+"','spider','"+cleanFileName+"','"+fp_type+"'," +
"'"+ipAddress+"','"+aT+"','"+sNmbr+"',MD5('"+url2+"'), 1) ON DUPLICATE KEY UPDATE iteration = iteration + 1";
Statement st2 = null;
con = DbConfig.openCons();
st2 = con.createStatement();
st2.executeUpdate(query);
//st2.execute("SELECT NOW()");
st2.close();
con.close();
if(con.isClosed()){
System.out.println("CON is CLOSED");
}else{
System.out.println("CON is OPEN");
}
if(st.isClosed()){
System.out.println("ST is CLOSED");
}else{
System.out.println("ST is OPEN");
}
}catch(NullPointerException npe){
System.out.println("NPE: " + npe);
}
}
非常有趣的是当我运行 st2.execute("SELECT NOW()"); 时而不是当前的 st2.execute(query);它工作正常并且可以爬行网站而不会挂起。但由于某种原因 st2.execute(query) 导致它在几次查询后挂起。它不是mysql,因为它不输出任何异常。我想也许我从 mysql 得到了“太多连接”,但事实并非如此。我的流程对任何人都有意义吗?
最佳答案
finally block 的重要性。
crawler4j 正在使用 c3p0 池插入到 mysql 中。经过几次查询后,爬虫将停止响应。感谢 @djechlin 的建议,事实证明这是 c3p0 中的连接泄漏。我添加了如下所示的finally block ,现在效果很好!
try{
//the insert method is here
}catch(SQLException e){
e.printStackTrace();
}finally{
if(st != null){
st.close();
}
if(rs != null){
rs.close();
}
}
关于java - 为什么crawler4j随机挂起?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24807637/
在C语言中,当有变量(假设都是int)i小于j时,我们可以用等式 i^=j^=i^=j 交换两个变量的值。例如,令int i = 3,j = 5;在计算 i^=j^=i^=j 之后,我有 i = 5,
我为以下问题编写了以下代码: 给定一个由 N 个正整数组成的序列 A,编写一个程序来查找满足 i > A[j]A[i](A[i] 的 A[j] 次方 > A[j] 的 A[i] 次方)。 我的代码通过
这个表达式是从左到右解析的吗?我试图解释解析的结果,但最后的结果是错误的。 int j=10, k=10; j+=j-=j*=j; //j=j+(j-=j*=j)=j+(j-j*j) k+=k*=
给定一个整数数组 A ,我试图找出在给定位置 j ,A[j] 从每个 i=0 到 i=j 在 A 中出现了多少次。我设计了一个如下所示的解决方案 map CF[400005]; for(int i=0
你能帮我算法吗: 给定 2 个相同大小的数组 a[]和 b[]具有大于或等于 1 的整数。 查找不相等的索引 i和 j ( i != j ) 使得值 -max(a[i]*b[i] + a[i] * b
每次用J的M.副词,性能显着下降。因为我怀疑艾弗森和许比我聪明得多,我一定是做错了什么。 考虑 Collatz conjecture .这里似乎有各种各样的内存机会,但不管我放在哪里M. ,性能太差了
假设一个包含各种类型的盒装矩阵: matrix =: ('abc';'defgh';23),:('foo';'bar';45) matrix +---+-----+--+|abc|defgh|23|+
是否有可能对于两个正整数 i 和 j,(-i)/j 不等于 -(i/j)?我不知道这是否可能......我认为这将是关于位的东西,或者 char 类型的溢出或其他东西,但我找不到它。有什么想法吗? 最
假设两个不同大小的数组: N0 =: i. 50 N1 =: i. 500 应该有一种方法可以获得唯一的对,只需将两者结合起来即可。我发现的“最简单”是: ]$R =: |:,"2 |: (,.N0)
我是 J 的新用户,我只是想知道 J 包中是否实现了三次样条插值方法? 最佳答案 我自己不熟悉,但是我确实安装了所有的包,所以 $ rg -l -i spline /usr/share/j/9.02
在 Q/kdb 中,您可以使用 ': 轻松修改动词,它代表每个优先级。它会将动词应用于一个元素及其之前的邻居。例如 =': 检查值对是否相等。在 J 中,您可以轻松折叠 /\ 但它是累积的,是否有成对
嗨,我有一个 4x4 双矩阵 A 1+2i 2-1i -3-2i -1+4i 3-1i -3+2i 1-3i -1-3i 4+3i 3+5i 1-2i -1-4i
刚刚发现 J 语言,我输入: 1+^o.*0j1 I expected the answer to be 0 ,但我得到了 0j1.22465e_16。虽然这非常接近于 0,但我想知道为什么 J 应该
这个问题在这里已经有了答案: With arrays, why is it the case that a[5] == 5[a]? (20 个答案) 关闭 3 年前。 我正在阅读“C++ 编程语言”
当第一行是 1, 1/2 , 1/3 ....这是支持该问题的图像。 是否存在比朴素的 O(n^2) 方法更有效的方法? 我在研究伯努利数时遇到了这个问题,然后在研究“Akiyama-Tanigawa
我写了一段Java代码,它在无限循环中运行。 下面是代码: public class TestProgram { public static void main(String[] args){
for (int i = n; i > 0; i /= 2) { for (int j = 0; j 0; i /= 2) 的第一个循环结果 O(log N) . 第二个循环for (int
如问题中所述,需要找到数组中 (i,j) 对的总数,使得 (1) **ia[j]** 其中 i 和 j 是数组的索引。没有空间限制。 我的问题是 1) Is there any approach w
for l in range(1,len(S)-1): for i in range(1,len(S)-l): j=i+l for X in N:
第二个for循环的复杂度是多少?会是n-i吗?根据我的理解,第一个 for 循环将执行 n 次,但第二个 for 循环中的索引设置为 i。 //where n is the number elemen
我是一名优秀的程序员,十分优秀!