- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我必须用 Java 编写解析器(这是我的第一个 html 解析器)。现在我正在使用 jsoup 库,我认为它是解决我的问题的好方法。
主要目标是从 Google Scholar 获取一些信息(h-index、出版物数量、科学载体年限)。我知道如何与 10 个人一起解析 html,就像这样:
for( Element element : htmlDoc.select("a[href*=/citations?user") ){
if( element.hasText() ) {
String findUrl = element.absUrl("href");
pagesToVisit.add(findUrl);
}
}
但是我需要找到有关所问大学的所有科学家的信息。怎么做?我正在考虑从按钮获取 url,它引导我们找到下 10 个结果,如下所示:
Elements elem = htmlDoc.getElementsByClass("gs_btnPR");
String nextUrl = elem.attr("onclick");
但是我得到这样的 url:
citations?view_op\x3dsearch_authors\x26hl\x3dpl\x26oe\x3dLatin2\x26mauthors\x3dAGH+University+of+Science+and+Technology\x26after_author\x3dslQKAC78__8J\x26astart\x3d10
我必须翻译 \x
标志并将该网站添加到我的“toVisit”网站吗?或者在 jsoup 库中或在其他库中是更好的主意?请告诉我!我没有任何其他想法,如何解析这样的东西......
最佳答案
I have to translate \x signs and add that site to my "toVisit" sites...I don't have any other idea, how to parse something like this...
\xAA
是 hexadecimal编码ascii .比如\x3d
就是=
,\x26
就是&
。可以使用基数设置为 16 的 Integer.parseInt
转换这些值。
char c = (char)Integer.parseInt("\\x3d", 16);
System.out.println(c);
如果您需要在没有第 3 方库的情况下解码这些值,您可以使用正则表达式来实现。例如,使用问题中提供的字符串:
String st = "citations?view_op\\x3dsearch_authors\\x26hl\\x3dpl\\x26oe\\x3dLatin2\\x26mauthors\\x3dAGH+University+of+Science+and+Technology\\x26after_author\\x3dslQKAC78__8J\\x26astart\\x3d10";
System.out.println("Before Decoding: " + st);
Pattern p = Pattern.compile("\\\\x([0-9A-Fa-f]{2})");
Matcher m = p.matcher(st);
while ( m.find() ){
String c = Character.toString((char)Integer.parseInt(m.group(1), 16));
st = st.replaceAll("\\" + m.group(0), c);
m = p.matcher("After Decoding: " + st);//optional, but added for clarity as st has changed
}
System.out.println(st);
关于java - 类google搜索引擎爬取解析结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30267648/
任何人都可以帮我列出一个很好的 php 站点搜索引擎列表。我正在考虑实现谷歌站点搜索,但我宁愿不为此付费,而且我宁愿尽可能多地控制它。 最佳答案 通读Roll your own Search Engi
我正在使用 Laravel 为移动应用程序构建 REST api。现在我需要一个搜索引擎。 首先,我从未使用过任何搜索引擎。所以我正在寻找一个易于使用但仍然擅长全文搜索和过滤“where”的工具 我要
我正在建立一个公司网站。我们正在寻找任何基于 ASP.NET 的开源或付费搜索引擎。应该可以 搜索网站中所有页面的网页内容。 所有办公文件。等等 如果我们有一些基于用户类型和风格的搜索结果过滤。 请让
目前我正在尝试为我的网站创建一个搜索功能,允许用户使用他们的全名(名字或姓氏)或他们的用户名搜索其他用户。现在我已经创建了一个临时搜索,它使用 mysql 的 LIKE 功能和 %name% 来允许通
我正在尝试制作一个搜索引擎,但我遇到了这个错误 Notice: Undefined variable: construct in C:\xampp\htdocs\test\search.php on
我有这个“搜索”选项,它在其中查找表格所请求变量的标题和类别。 //This could be Reference or Product Name $name = mysqli_real_escape
你好 php 的另一个问题,我不确定为什么它不起作用,但这是代码: $keyword){ $where .="`keywords` LIKE '%$keyword%'";
我已经在空闲时间学习 PHP 几个星期了,这是我不得不寻求帮助的第一个问题。我在整个 Internet 上进行了搜索,但在使用具有两个输入字段的 PHP mysql 搜索引擎时,没有发现任何我能完全理
我正在尝试在关键术语表和页面之间进行搜索查询。 考虑下表。 页数 page_id page_name1 cats2 dogs3 humans 关键词 key
我正在尝试使用html ajax和jsp进行与google搜索相同的搜索引擎 1.当我在文本框中点击一个字符时,每次点击都会调用ajax 2.ajax 将其重定向到 jsp,其中我有一个简单的查询,该
我已经阅读了一些关于内置 python 附带的 re 模块的文档,但我似乎无法理解它。事实上,我不确定这就是我要找的东西,所以让我解释一下: 我有一本大字典。我想要的是能够输入搜索条件,例如 hell
我有一个包含多个对象的网络应用程序,其中有多个我想要搜索的String。我想按最佳“匹配”对“匹配”进行排序。示例:搜索“stackoverflow is Great”。 “Stackoverflow
我有一个新创建的 Web 应用程序托管在 AppEngine 中(仅 HTML)问题是,我怎样才能让这个页面出现在谷歌搜索引擎上?这类似于常规方法(robot.txt 等)吗? 谢谢! 最佳答案 只需
我想要一个只搜索我自己站点的搜索引擎。我目前有一些 JavaScript,但它只搜索特定页面上的单词。如果可能的话,我需要它来搜索我网站内的链接。 我无法使用 Google 搜索引擎,因为我的站点位于
目前,我有一个汽车品牌列表(本田,丰田,宝马,梅赛德斯·奔驰等)的表格(car_brands),并且我有一个标题,用户可以输入,例如mercedes benz e 230,所以我想输入用户可以通过搜索
我将在我的应用程序中使用 ElasticSearch 作为搜索存储库。我有一些关于组织方面的最佳实践的问题当对象彼此具有关联/关系时,搜索索引中的对象。 据我所知,搜索索引是一个平面结构,不符合以下概
基本要求: 应该能够索引 MediaWiki、Confluence、Sharepoint、GitHub:Enterprise、Askbot 等内容 应该相当聪明地去除重复结果(Confluence 搜
所以,我才刚刚开始阅读这方面的内容,我以前从未在 PHP 中实现过搜索。我想知道几个问题: 听起来,Sphinx 需要一个“守护进程”,一个运行在后台,操作? 假设我建立了一个 mySQL 的索引表,
我有一个包含 20 个文本文件的文件夹。我希望索引这个文件夹并在这些文件中搜索任何关键字。 我如何在 C# 中执行此操作? 最佳答案 这是对 lucene.Net 的一个很好的介绍: Introduc
我正在寻找可用于在我的网站上搜索内容的任何 javascript 库,我遇到了一些安静的但大多数它们需要使用数据库来存储索引以优化搜索查询,但我只需要一个内置javascript的数据库免费搜索引擎。
我是一名优秀的程序员,十分优秀!