gpt4 book ai didi

java - 从html代码中提取图片url的正则表达式

转载 作者:行者123 更新时间:2023-11-30 05:51:07 25 4
gpt4 key购买 nike

我想从 html 代码中提取图像的 Url,例如html代码如下:

<div class="imageContainer">
<img src="http://ecx.images-amazon.com/images/I/41%2B7N48F7JL._SL135_.jpg"
alt="" width="135" height="94"
style="margin-top: 21px; margin-bottom:20px;" /></div>

我从网上得到了一个代码

String regexImage = "(?<=<img (*)src=\")[^\"]*";
Pattern pImage = Pattern.compile(regexImage);
Matcher mImage = pImage.matcher(elementString);
while (mImage.find()) {
String imagePath = mImage.group();}

正在运行并具有 re(正则表达式)

"(?<=<img src=\")[^\"]*"

但现在我想从 html 代码中提取图像 url,如下所示:

<img onerror="img_onerror(this);" data-logit="true" data-pid="MOBDDDBRHVWQZHYY"
data-imagesize="thumb"
data-error-url="http://img1a.flixcart.com/mob/thumb/mobile.jpg"
src="http://img8a.flixcart.com/image/mobile/h/y/y/samsung-galaxy-s-duos-s7562-125x125-imadddczzr4qhqnc.jpeg"
alt="Samsung Galaxy S Duos S7562: Mobile"
title="Samsung Galaxy S Duos S7562: Mobile"></img></a>
<div class="bp-offer-image image-offer"></div>

img和src之间有代码的地方=

我正在尝试将正则表达式作为 "(?<=<img (*)src=\")[^\"]*"但它不工作。所以请给我正则表达式,以便我可以提取图像 url,即 http://ecx.images-amazon.com/images/I/61xqOQ3Sj8L._SL135_.jpg来自上面的 html 代码。

而且,首先我使用 Jsoup 解析 html 以提取包含 img 的标签:

doc = Jsoup.connect(urlFromBrowse).get();
Elements elements = doc.getElementsByTag("img");

for (Element element : elements) {
String elementString = element.toString();

并将此 elementString 传递给 matcher() 方法。从我得到的标签(元素)中,我使用正则表达式来解析图像 url、名称等。

最佳答案

这篇文章是对问题的回答,而不是指南。

问题不是“RegExp vs DOM”,问题是“从 html 代码中提取图像 url 的正则表达式”。

这里是:

String htmlFragment =
"<img onerror=\"img_onerror(this);\" data-logit=\"true\" data-pid=\"MOBDDDBRHVWQZHYY\"\n" +
" data-imagesize=\"thumb\"\n" +
" data-error-url=\"http://img1a.flixcart.com/mob/thumb/mobile.jpg\"\n" +
" src=\"http://img8a.flixcart.com/image/mobile/h/y/y/samsung-galaxy-s-duos-s7562-125x125-imadddczzr4qhqnc.jpeg\"\n" +
" alt=\"Samsung Galaxy S Duos S7562: Mobile\"\n" +
" title=\"Samsung Galaxy S Duos S7562: Mobile\"></img></a>";
Pattern pattern =
Pattern.compile( "(?m)(?s)<img\\s+(.*)src\\s*=\\s*\"([^\"]+)\"(.*)" );
Matcher matcher = pattern.matcher( htmlFragment );
if( matcher.matches()) {
System.err.println(
"OK:\n" +
"1: '" + matcher.group(1) + "'\n" +
"2: '" + matcher.group(2) + "'\n" +
"3: '" + matcher.group(3) + "'\n" );
}

和输出:

OK:
1: 'onerror="img_onerror(this);" data-logit="true" data-pid="MOBDDDBRHVWQZHYY"
data-imagesize="thumb"
data-error-url="http://img1a.flixcart.com/mob/thumb/mobile.jpg"
'
2: 'http://img8a.flixcart.com/image/mobile/h/y/y/samsung-galaxy-s-duos-s7562-125x125-imadddczzr4qhqnc.jpeg'
3: '
alt="Samsung Galaxy S Duos S7562: Mobile"
title="Samsung Galaxy S Duos S7562: Mobile"></img></a>'

关于java - 从html代码中提取图片url的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13161185/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com