Python - 根据内容值提取href值-6ren

Python - 根据内容值提取href值

转载作者：行者123 更新时间：2023-12-01 01:56:53

25

4

我正在尝试扫描网页，以使用产品名称的一部分查找特定产品的链接。

下面的 HTML 是我试图从中提取信息的部分:

<article class='product' data-json-url='/en/GB/men/products/omia066s188000161001.json' id='product_24793' itemscope='' itemtype='http://schema.org/Product'>
<header>
<h3>OMIA066S188000161001</h3>
</header>
<a itemProp="url" href="/en/GB/men/products/omia066s188000161001"><span content='OFF WHITE Shoes OMIA066S188000161001' itemProp='name' style='display:none'></span>
<span content='OFF WHITE' itemProp='brand' style='display:none'></span>
<span content='OMIA066S188000161001' itemProp='model' style='display:none'></span>
<figure>
<img itemProp="image" alt="OMIA066S188000161001 image" class="top" src="https://cdn.off---white.com/images/156374/product_OMIA066S188000161001_1.jpg?1498806560" />
<figcaption>
<div class='brand-name'>
HIGH 3.0 SNEAKER
</div>
<div class='category-and-season'>
<span class='category'>Shoes</span>
</div>


<div class='price' itemProp='offers' itemscope='' itemtype='http://schema.org/Offer'>
<span content='530.0' itemProp='price'>
<strong>£ 530</strong>
</span>
<span content='GBP' itemProp='priceCurrency'></span>
</div>


<div class='size-box js-size-box'>
<!-- / .available-size -->
<!-- /   = render 'availability', product: product -->
<div class='sizes'></div>
</div>
</figcaption>
</figure>
</a></article>

我的代码如下:

import requests
from bs4 import BeautifulSoup

item_to_find = 'off white shoes'

s = requests.Session()
r = s.get('https://www.off---white.com/en/GB/section/new-arrivals.js')
soup = BeautifulSoup(r.content, 'html.parser')
#find_url = soup.find("a", {"content":item_to_find})['href']
#print(find_url)

如何仅过滤“content”包含 item_to_find 的行，然后提取该产品的“href”？

最终输出应如下所示:

/en/GB/men/products/omia066s188000161001

最佳答案

尝试一下。

import requests
from bs4 import BeautifulSoup

item_to_find = 'off white shoes'

s = requests.Session()
r = s.get('https://www.off---white.com/en/GB/section/new-arrivals.js')
soup = BeautifulSoup(r.content, 'html.parser')
links = soup.find_all("a")

for link in links:
    if 'OFF WHITE Shoes' in link.encode_contents():
        print link.get('href')

由于“OFF WHITE Shoes”文本存在于一个范围内，我们可以使用encode_contents()来检查每个链接中的所有标记。如果我们要搜索的文本存在，我们可以使用 BeautifulSoups .get 方法获取链接。

关于Python - 根据内容值提取href值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50067941/

25

4

0

文章推荐： javascript - 仅当 mouseenter 事件持续 1 秒时触发函数

文章推荐： javascript - 使用数组查找匹配项的“For”循环不执行

文章推荐： nativescript - 在 NativeScript + Angula2 应用程序中使用 ngFor

文章推荐： javascript - EasyAutocomplete 和输入宽度

javascript - puppeteer 获取 href 数组，然后遍历每个 href 和该页面上的 href
我正在尝试通过 node.js 中的 puppeteer 抓取数据目前，我正在寻找一个脚本，用于抓取 well.ca 某个部分中的所有数据现在，这是我试图通过 node.js 实现的方法/逻辑 1
html - href =""、 href ="#"和 href ="javascript:void(0)"有什么区别？
href=""、href="#" 和 href="javascript:void(0)" 之间有什么区别? 它们有哪些不同的用途，什么时候一个比另一个更好？最佳答案 href=""将重新加载当前页面
javascript - 使用 href 值查找 anchor 标记并使用新的 href 值更改 href 值
这是html代码: Delivery Schedule Route Abstract Report 我有 href 值。使用 href 值，我应该找到 anchor 标记并使用 jQuery
javascript - this.href 不返回 href
我不确定是不是因为我使用的是 Wordpress 但 this.href 没有返回包含它们的项目的 href(例如在“联系人”上它返回 http://www.domain.net/undefined反
html - href 悬停影响另一个 href
这个问题在这里已经有了答案: Is there a "previous sibling" selector? (33 个答案) 关闭 8 年前。
html - href 里面的 href
这个问题在这里已经有了答案: Are you allowed to nest a link inside of a link? (9 个回答) 关闭 6 年前。我有一个可点击的面板，其中有一个工具
html - href 中的跨浏览器 href？
我的 css 如下所示 ul.sometclass li a { display:inline-block; } 我的 html 看起来像 outer test
html - "a[href*=#]:not([href=#])"代码是什么意思？
我没看明白这段代码是什么意思？ a[href*=#]:not([href=#]) 谢谢! 最佳答案简单地: a[href*=#] 获取 href 中包含 # 的所有 anchor (a)。但是有:
href - document.getElementById 包含 href
document.getElementById("IDOFELEMENT"); 将其转换为链接的正确方法是什么？我可以写吗 document.getElementById("IDOFELEME
reactjs - href 变成 data-href
所以我在我的 Next JS 应用程序中遇到了这个奇怪的问题，我导入了谷歌字体，如下所示在我的浏览器中显示的不是 href，而是 data-href="..."，所以问题是谷歌无法将此识别为链接
javascript - 从所选选项中获取 href 值并更改按钮的 href
我想获取所选选项的 href 值，以便我现在可以转到使用按钮选择的链接。这是我的代码
javascript - 获取一个链接的 href 并将其放入另一个链接的 href
我正在尝试获取我的一个链接的 href 并将其克隆/复制到另一个链接的 href 这是我正在尝试的 var link = $('.topbook'); var link2 =
javascript - 从一个链接获取 href 并克隆到另一个 href
我基本上是试图从一个链接获取href，然后将其填充到另一个链接中: HTML: Link to thing Link to duplicate 脚本: $('.main-link').attr('hr
html - href 中的 href 的解决方案？
我使用的 CSS 工具提示必须包含在“a href”中才能工作。 iPad [add_to_cart_anchor item="ipad"]purchase the iPad[/add_to_c
c# - 用封闭的 HREFS 替换电子邮件和 HREFS
我有一个以前是纯文本的电子邮件正文，但现在我把它变成了 HTML。电子邮件是使用多种方法生成的，但没有一种方法易于转换。我有的是: Some content emailaddress@somethi
python - 当 ['href' ] 元素是超链接时如何提取 href
我正在尝试从网页中抓取数据，然后通过提取下一页的 href 来转到下一页。但是，在这种情况下，包含下一页的 href 的标签是 href='#next'。使用 Chrome 检查此元素后，当我将鼠标
href - 是什么意思？
在我的 html 页面中，我看到一个链接，其“查看源代码”代码如下: 当我将鼠标悬停在链接上并单击它时，我看到了一个有效链接。但我无法找到生成此 URL 的位置和方式。我发现类 a.view 是在其
javascript - this.href 与 $(this).attr ('href' )
看完这篇文章net.tutsplus.com/tutorials/javascript-ajax/14-helpful-jquery-tricks-notes-and-best-practices/我
href - 如何在 SvelteKit 中使用 Relative Href？
我想用 SvelteKit 构建一个 Web 应用程序，其中一页列出所有项目(带有潜在的搜索查询参数)，然后每个单独的项目一页。如果我必须使用后端生成的所有内容以老式方式构建它，我的路径将是 /ite
javascript - 警报显示一些 href，而其他则不显示，我想要包含该词的所有 href
此 js 搜索包含 page=fleet 的 href其中: var links = document.querySelectorAll('a[href*="page=fleet"]'); var h

首页

博学

6Ren·AI

商城

Python - 根据内容值提取href值