- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
前几天我提出了一个问题here ,但最后我决定自己做,因为时间问题,现在我有更多的时间来解决它:D我喜欢jSoup,但我有点老派,并且更喜欢自己做(感谢@Bakkal无论如何)。
我设法编写了这段代码,目前它工作正常,但是如果网页构造得不好,它会破坏代码,例如,如果它不以 http 开头,则代码将找不到它,并且如果网址不是以我放入的内容之一结尾,那么它将返回一个非常难看的地址..例如
http://www.google.com/ hey dude how are you? great, eating at jack's
我的结果是:
http://www.google.com/ hey dude how are you? great, eating at jack
我愿意接受任何建议,我将继续提出我的问题,然后发布代码
谢谢你所做的一切:D
File txtUrlSpecialFile = new File("pepe.txt");
FileWriter txtUrlSpecial;
txtUrlSpecial = new FileWriter(txtUrlSpecialFile);
txtUrlSpecial.write(profundidad-1);
for(int j=0;j<bigString.length()-5;j++){ //I put 5 but I can put more
if(bigString.substring(j, j+4).equals("http")){
while(bigString.charAt(j)!='"' && bigString.charAt(j)!='<'&& bigString.substring(j, j)!="'"){
txtUrlSpecial.write(bigString.charAt(j));
j++;
}
txtUrlSpecial.write(SingletonFunction.getNewLine());
}
}
txtUrlSpecial.close();
最佳答案
如果我理解正确的话,您正在尝试从 HTML 文件中从属性(例如“href”)和文本中试探性地提取 URL。
我告诉你,你的要求是不可能的。例如,应该从以下文本中提取什么内容:
Go to the URL http://example.com/ this and that. And if that doesn't work,
I recommend that you go read the http specification.
“这个和那个”是否应该是 URL 的一部分?你的软件应该如何解决这个问题?如果文档作者的意思与你的启发式所说的相反怎么办?那么“http 规范”呢……这显然不是 URL。
这是另一个稍微微妙的例子:
First, go to the URL http://example.com/index.html.
Then click on the "login" link.
您的软件是否应该提取“http://example.com/index.html .”或“http://example.com/index.html”?根据 URL 规范,两者都是有效的 URL。你的软件可能会去掉最后的“.”。因为它很可能是标点符号,但它可能是错误的。
我的建议:
关于java - 如何优化这段丑陋的代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3379786/
kable(head(mtcars) %>% kable_styling(bootstrap_options = c("striped", "hover")) 使用 kable 表(见上文)的普通
我试图很好地显示 NSTextView 中突出显示的段落。现在,我通过创建一个带有背景颜色的 NSAttributedString 来做到这一点。这是一些简化的代码: NSDictionary *at
我的站点位于 http://www.idataresearch.net 我正在为导航菜单使用 Dynamic Drive 的 ddmoothmenu 脚本。我真的很喜欢这个脚本,很高兴看到以前的开发人
我在 Ubuntu EC2 实例上运行 nginx、gunicorn、django。整个网站运行良好。除了管理员。管理员无法正常显示。我运行“python manage.py Collectstati
在一个本身嵌套在一个或多个父数组/结构/union 中的数组/结构/union 中读取多个数字/字符串的最佳方法是什么? 没有临时变量的第一个例子: printf("%d %d\n", a[9][3]
我正在编写一个与 mingw 一起使用的包装层,它为应用程序提供了一个虚拟的 UTF-8 环境。处理文件名的函数是从 UTF-8 转换并调用相应的“_w”函数等的包装器。我遇到的最大问题是 Windo
在我的回答中Clojure For Comprehension example我有一个处理自己输出的函数: (defn stream [seed] (defn helper [slow]
我使用的是 bootstrap 4.0 alpha,没有其他样式。布局非常丑陋,日历只显示一列而不是表格。知道为什么以及如何做吗? 我从网站上注意到以下内容,但我不明白我应该怎么做: note: Th
我是一名优秀的程序员,十分优秀!