java - 清醒工作 : Java Regular Expressions & GNU Regular Expressions-6ren

java - 清醒工作 : Java Regular Expressions & GNU Regular Expressions

转载作者：行者123 更新时间：2023-11-29 09:18:09

32

4

我正在尝试创建正则表达式，以便我可以使用 LucidWorks 对我网站上的某些 URL 进行爬网和索引。

示例网址:http://www.example.com/reviews/assassins-creed-revelations/24475 /评论/示例网址:http://www.example.com/reviews/super-mario-3d-land/64303 /评论/

基本上，我希望 LucidWorks 搜索我的整个站点并仅索引在 URL 末尾具有/reviews/的 URL。

谁能帮我构造一个表达式来做到这一点？ :)

更新:

网址:http://www.example.com/

包含路径://*/reviews/*

这种方法可行，但它只会抓取第一页，不会转到下一页有更多评论(1、2、3 等)。

如果我还添加:///reviews/.*

我得到了很多我不想要的索引页面，例如 http://www.example.com/?page=2

最佳答案

Check with this function
public boolean canAcceptURL(String url,String endsWith){
    boolean canAccept = false;
    String regex = "";
    try{
        if(endsWith.equals("")){
            endsWith = "/reviews/";
        }
    regex = "[\\x20-\\x7E]*"+endsWith+"$";//Check the url string u passed ends     with the endString you hav passed.If end string is null it will take the default value.
        canAccept = url.matches(regex);
    }catch (PatternSyntaxException pe) {
        pe.printStackTrace();
    }catch (Exception e) {
        e.printStackTrace();
    }
    System.out.println("String matches : "+canAccept);
    return canAccept;
}

Sample out put :
calling function : canAcceptURL("http://www.example.com/reviews/super-mario-3d-land/64303/reviews/","/reviews/");
String matches : true

if you want to get the url contains *'/reviews/'* just change the regex string to

String regex = "[\\x20-\\x7E]*/reviews/[\\x20-\\x7E]*"; // this will accept a string with white space and special character.

关于java - 清醒工作 : Java Regular Expressions & GNU Regular Expressions，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8174619/

32

4

0

文章推荐： java - IIS6 中缺少 header (ColdFusion，可能还有其他语言)

文章推荐： java - Windows 7 中 IBM JRE 上的 JMX 无法工作

文章推荐： Bash:如何拆分字符串并分配多个变量

ios - Xcode 6 : storyboard size not changing when selecting w:Regular h:Regular from w:compact h:regular
我正在使用 Swift 开发一个项目，当时我正在使用 Storyboard为 iPad 和 iPhone 创建 UI，因此我同时需要更改 Storyboard的大小(我使用的是大小类)。在我为 iPh
Java : Regular Expression escape Regular Expression
此示例数据由 Web 服务返回 200,6, "California, USA" 我想使用 split(",") 拆分它们并尝试使用简单的代码查看结果。 String loc = "200,6,\"C
java - 清醒工作 : Java Regular Expressions & GNU Regular Expressions
我正在尝试创建正则表达式，以便我可以使用 LucidWorks 对我网站上的某些 URL 进行爬网和索引。示例网址:http://www.example.com/reviews/assassins-
regular-language - 常规语言的抽动引理
在检查给定语言是否正常时，我有点困惑。假设我们必须检查是否: L. The language accepting even number of 0's in regular or not? 我们知道
regular-language - 结合确定性有限自动机
我真的是新手，所以我为这里的笨拙而道歉。构造识别以下语言的Deterministic Finite Automaton DFA: L= { w : w has at least two a's an
regular-language - 证明语言是正常的
Pumping Lemma被用来证明一种不规则的语言。但是语言如何证明是正常的？尤其是， Let L be a language. Define half(L) to be { x | for s
regular-language - 有人可以帮助我使用泵引理证明这个证明吗？
我刚刚开始阅读有关泵送引理的内容，并且知道如何进行一些证明，主要是通过反证法。我似乎找不到答案，只是这个特殊问题。我不知道如何开始。我可以假设必须有一个泵浦长度 P 并且对于 L 的所有 w 元素，L
regular-language - 正则语言的并集是正则的吗？
如果语言 L1,...,Ln 是正则的，那么它们的并集也是正则的吗？我们知道两种正则语言的并集是正则语言。如何证明多个正则语言的并集也是正则的？最佳答案您可以使用归纳法。这是一个非常非常生锈的证
regular-language - 0转PDA的语言与常规语言一致吗？
如果对于其语言中的任何字符串 w，PDA(Pushdown Automaton)最多转动其堆栈的方向 k 次，则称其为 k 转。众所周知，语言 L 是线性的当且仅当被 1 圈 PDA 接受。现在，常规
regular-language - 正则语言的并集是正则的吗？
如果语言 L1,...,Ln 是正则的，那么它们的并集也是正则的吗？我们知道两种正则语言的并集是正则语言。如何证明多个正则语言的并集也是正则的？最佳答案您可以使用归纳法。这是一个非常非常生锈的证
regular-language - 这种语言是正规的吗
给 R 常规语言。下面的语言是否也是正则的: Comp(R) = { u | u is NOT a sub-word of a word in R } 看起来 Comp(R) 中没有单词，因为 R
regular-language - 将常规语言插入其他常规语言
设 L1 和 L2 是字母表 {a,b} 上的常规语言。我们定义语言 L3 如下: L3 = {pqr | pr ∈ L1, q ∈ L2} L3 是通过将来自L2 的字符串插入来自L1 的字符串而获
regular-language - 正则语言的有限性
我们都知道(a + b)*是仅包含符号的常规语言 a和 b . 但是(a + b)*是一个无限长的字符串，它是有规律的，因为我们可以建立一个有限自动机，所以它应该是有限的。任何人都可以解释一下吗？
regular-language - 常规语言的最小泵送长度
如何计算常规语言的最小抽水长度。例如，如果我有 0001*，那么最小抽气长度应该是 4，即 000 无法抽气。为什么会这样？最佳答案它将小于或等于该语言的最小 DFA 中的状态数减去一。因此，将正
python : Regular expression
我有以下代码可以执行我想要的操作，从该命令的结果中检索包名称: 命令: dpkg --get-selections | grep amule 要分析的字符串: string = 'amule\t\t\
浅谈正则表达式(Regular Expression)
1、什么是正则表达式？简单的说：正则表达式（Regular Expression）是一种处理字符串匹配的语言；正则表达式描述了一种字符串匹配的模式，可以用来检查一个字符串是否含有某种子串，
正则表达式基础教程 regular expression
前言正则表达式是烦琐的，但是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。只要认真去阅读这些资料，加上应用的时候进行一定的参考，掌握正则表达式不是问题。 1. 引子
regular-language - 连接和联合 - 常规和上下文无关语言
给定 L1 上下文无关的非正则语言。给定 L2 常规语言。 L1 U L2 =常规语言有可能吗？另外，L1*L2 = 常规语言有可能吗？我认为第二个是不可能的。但我不确定。如果上述陈述之一(或
regular-language - 抽引引理(普通语言)
我需要解决抽奖引理问题。 L = { {a,b,c}* | #a(L) N个字母。 pigeon principle告诉我们必须存在一个达到2次的状态，因此在该状态下将存在一个循环。用您的符号，您
regular-language - a*b* 是常规的吗？
我知道 n > 0 的 anbn 不是抽引引理的规则，但我可以想象 a*b*是常规的，因为 a,b 不必是相同的长度。有没有证据证明它是正常的？最佳答案回答你的问题: imagine a*b* t

首页

博学

6Ren·AI

商城

java - 清醒工作 : Java Regular Expressions & GNU Regular Expressions