- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是我在 Java 中见过的最奇怪的事情。情况是这样的。我尝试在没有任何 API 的情况下读取 80 多个 URL(这真的很糟糕)。这些网页有一种显示我需要的信息的通用方式,因此我通常可以通过一些正则表达式语句来找到感兴趣的项目。
这是我正在尝试阅读的示例网页。 Webpage
我有两个非常草率的类来完成此任务:
测试器.java。这里的 Main 方法只是从我的计算机上读取 URL,并为每个 URL 调用 Tools 类中的一个方法,该方法返回一个 ArrayList。然后它将 ArrayList 中的所有这些项目添加到更大的 ArrayList 中,这就是我想要的输出。我的程序从未达到这一点。
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
public class Tester
{
public static int d2counter = 0;
public static void main(String[] args)
{
ArrayList<String> database = new ArrayList<>();
ArrayList<String> urls = new ArrayList<>();
try
{
FileReader writer = new FileReader("res/URLs.txt");
BufferedReader reader = new BufferedReader(writer);
while (reader.ready())
{
urls.add(reader.readLine());
}
for (String i : urls)
{
System.out.println(++d2counter + " " + i);
ArrayList<String> temp = Tools.readURL(i);
for (String h : temp)
{
database.add(h);
}
}
Tools.outputArraysToFile(database, "output.txt");
reader.close();
}
catch (FileNotFoundException e)
{
// TODO Auto-generated catch block
e.printStackTrace();
}
catch (IOException e)
{
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
工具.java。这是一个充满静态方法的辅助类。这里唯一感兴趣的方法是 readURL() 方法。
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.io.UnsupportedEncodingException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Collection;
/**
* Class which will house useful tools for other classes in this program.
*/
public abstract class Tools
{
public static ArrayList<String> readURL(String address)
{
ArrayList<String> temp = new ArrayList<>();
try
{
// Create a reader to read the webpage.
BufferedReader reader = new BufferedReader(new InputStreamReader(new URL(address).openStream()));
// Line variable to be used by Reader.
String line = "";
// Phase 1: Navigate to the desired section of the webpage.
int counter2 = 1;
while (reader.ready())
{
line = reader.readLine();
counter2++;
if (line.contains("MAIN CONTENT"))
{
break;
}
}
if (!reader.ready())
{
System.err.println("ERROR: Reached bottom of document without finding page title.");
System.exit(1);
}
String name, url, type;
type = "Default";
// Find the type.
for (int i = 0; i < 3; i++)
{
line = reader.readLine();
if (line.matches(".*<B>[A-Za-z\\s]+</b>.*"))
{
line = line.substring(line.indexOf("<B>") + 3, line.indexOf("</b>"));
line = line.replace("Normal", "");
line = line.replace("Exquisite", "");
line = line.replace("Elite", "");
line = line.trim();
if (line.endsWith("s"))
{
line = line.substring(0, line.length() - 1);
}
type = line;
break;
}
}
// Phase 2: Add data:
while (!line.contains("END MAIN CONTENT"))
{
line = reader.readLine();
if (line.contains(".gif"))
{
line = line.replaceFirst(".*src=\"", "");
url = "classic.battle.net" + line.substring(0, line.indexOf("\""));
for (int i = 0; i < 5; i++)
{
line = reader.readLine();
if (line.matches(".*<b>[-A-Za-z\\s]+</b>.*"))
{
line = line.replaceFirst(".*<b>", "");
line = line.replaceFirst("</b>.*", "");
name = line;
temp.add(name + "," + type + "," + url);
break;
}
}
}
}
reader.close();
}
catch (IOException e)
{
System.err.println("Unable to read from URL.");
e.printStackTrace();
}
return temp;
}
}
这是奇怪的部分:每次运行该程序时,它似乎都是随机失败的。
更奇怪的是,如果您访问这些网页,您会发现它们的代码中都有“主要内容”,而我的 .contains("MAIN CONTENT") 行应该有检测到。我在帮助程序打印语句中添加了它以显示它卡在哪个 URL 上以及该行是否存在。每次我使用调试器时,它都会按照我的操作运行。不过,由于有数千行输入,我似乎无法有效地在整个过程中断点。我不明白——我一定缺少一些东西。
谢谢大家!
最佳答案
您错误地使用了 ready()
方法——事实上,您根本不应该使用它。当仍有数据需要读取时,它会导致您的程序停止读取。
readLine()
方法就是您所需要的。当您到达文本末尾时,它会返回 null
,并且这就是您用来控制循环的内容。标准习惯用法是:
String line = null;
while ((line = reader.readLine()) != null) {
// process the line
}
当ready()
返回false
时,并不意味着没有任何内容可供读取,而是意味着底层流目前尚未准备好读取,并且其缓冲区中没有字符。换句话说,BufferedReader 必须等待(可能是几毫秒)才能访问更多字符。在我看来,这是一种低级方法,甚至不应该具有 public
可见性。在您之前,很多人都掉进了这个陷阱。
关于java - 从网页源读取随机失败 - Java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34689457/
语境 我正在将一个旧的 php 电子商务网站变成一个用 gatsby.js 构建的静态网站。 我将所有产品元数据放入单独的 .json 文件(每个产品一个),并且我能够使用 json 和文件转换器插件
我曾经能够使用三指向上滚动在源/标题之间切换。自从升级到 Lion 后,我只进行常规滚动。有没有办法恢复该功能? Aka,当我像以前那样向上/向下滚动时,它不会跳到对应的位置。 更新 Apple 在
我有一个包含复选框输入的克隆元素。当克隆的元素未被选中时,我需要也取消选中源元素。有没有办法在 jQuery 中做到这一点?或者我是否以错误的方式处理这个问题(即使用clone())?我应该提到我的问
我有一个类,其中有两个 JSpinner 对象,x 和 y。我有一个更改监听器,它已添加到两者中。有人可以告诉我如何实现我的更改监听器,以便监听器可以区分两个对象之间的区别。例如伪代码: if(sou
我正在编写涉及 for 循环的代码,该循环在每个索引处进行计算。 这些计算中的最小值存储在一个变量中,我在程序末尾使用 MPI_Allreduce 来确定所有进程的全局最小值。 但是,我需要一种方法来
我需要在一个 Android 项目中创建一个 map View ,我从服务器获取自定义 map 图 block PNG。有人知道实现此类功能的简单许可 API 吗? 最佳答案 我使用了 OsmDroi
因为我必须创建一个可以更改图像 (src/background-url) 的函数。我想知道如何识别标签以及它是使用 src 还是 url 来访问图像。 让我们说 早些时候我写了一个可以
当我使用源 map 浏览器 https://github.com/danvk/source-map-explorer要检查捆绑包中的内容,我得到以下输出: D:\projects\angular\mT
我正在为客户将 Windev 应用程序移植到 Objective-C。出于显而易见的原因,使用以前的源代码会更简单。 不幸的是,它是加密的,我需要 EDI 才能看到它;完整版的 Windev 太贵了(
我有一个简单的视频播放器,它使用 WPF MediaElement 播放一系列视频。这些视频一起形成一个围绕静止图像移动的连续电影。在每个视频结束时,运动会卡住在当前播放视频的最后一帧。当我按下一个按
我需要更改 openlayer 的图层源(使用 open weather api)。目前我正在使用以下代码但没有成功。 let layer = this.map.getLayers().getArra
我正在尝试在 /dev/random 的机器上运行代码不会很快填满,我正在尝试使用的 Java 程序因缺少随机数而挂起。/dev/urandom产生“不太好”的随机数,但不会阻塞,对于这种情况,我宁愿
我需要 Yocto 项目的源代码包。我已经拥有整个项目的所有资源,但它们还包括开发工具。 我想有一种方法来生成将为目标图像构建的所有包的(修补的)源。因此,例如,如果目标图像包含 busybox,我想
如何对入侵者隐藏 iFrame src 假设我正在流式传输我的网络摄像头或我的电脑屏幕,这是 iframe 代码: 并且我不希望它在大多数浏览器上显示页面源中的流 URL 和检查功能! 这意
是否可以进入 Qt 源,例如qmainwindow.cpp,在 Qt Creator 中?目前我正在看到反汇编,但最好能看到源代码。 最佳答案 当然!但您可能必须首先: 转到 $QT_HOME/qt
我正在尝试创建一个包含很少动漫剧集的简单网站。我有一个关于 javascript 的问题。如何通过单击我的链接之一来更改视频源?我明白,我必须使用事件监听器,只需更改 取决于我点击的链接,但我不太擅长
我有一个带有 BindingSouce 的 DevExpress GridControl。我想清除 BindingSource 并用新数据填充它。我这样做: var list = new List()
当单击提交输入按钮时,我尝试将其他参数(选定复选框的列表)传递到服务器处理的 DataTables 表#my_table: 这可能意味着我必须将 my_table.sAjaxSource 设置为后端脚
(好吧,别对我大喊大叫,这里已经很晚了:)) 我正在研究 delta diff 工具(命令行工具或组件,只要我可以从 Delphi 2010 调用它们就可以了) 我有这个项目,我将文件上传到服务器,我
我需要解析 Yahoo Weather RSS feed 中的某个位置,例如 http://weather.yahooapis.com/forecastrss?w=44418&u=c例如,获取最高、最
我是一名优秀的程序员,十分优秀!