gpt4 book ai didi

java - 如何使用 Jsoup 库获取对象的所有详细信息并将其保存到 bean 中?

转载 作者:行者123 更新时间:2023-12-01 16:13:42 27 4
gpt4 key购买 nike

我正在抓取网站 https://hamrobazaar.com/c6-apparels-and-accessories我想将所有子类别详细信息存储在一个 bean 中并打印它们。如果我相应地获得了对象的详细信息,这也会有很大帮助。

示例:

Image from the same site i.e https://hamrobazaar.com/c6-apparels-and-accessories

我想刮掉口罩名称为 Kn95 口罩(FDA 认证),描述为我们是卖家...,卖家名称为 Birodh Pokhrel,地址为 Damak-5,Damak,价格为 210,日期,然后输入“全新”

如果你擅长 Jsoup 和 Xpath。请帮助我获得这个。谢谢

最佳答案

对于 XPath 部分(jsoup 不支持它,所以也许您可以尝试使用 xsoup):

一些选择器可以从广告中获取详细信息,包括黄色背景的选择器,每个页面都保持相同。 (文章标题、描述、卖家、地址、价格、商品状况):

//font[@style]/b
//b[.="Seller:"]/preceding-sibling::text()[normalize-space()]
//b[.="Seller:"]/following-sibling::a
//b[.="Seller:"]/following-sibling::font
//b[starts-with(.,"Rs.")]
//b[starts-with(.,"Rs.")]/following-sibling::font

每个细节的元素数量:21

一些选择器可以从广告中获取详细信息,但黄色背景的选择器除外,每个页面都保持相同。 (文章标题、描述、卖家、地址、价格、商品状况):

//font[@style][not(ancestor::table[@id])]/b
//b[.="Seller:"][not(ancestor::table[@id])]/preceding-sibling::text()[normalize-space()]
//b[.="Seller:"][not(ancestor::table[@id])]/following-sibling::a
//b[.="Seller:"][not(ancestor::table[@id])]/following-sibling::font
//b[not(ancestor::table[@id])][starts-with(.,"Rs.")]
//b[not(ancestor::table[@id])][starts-with(.,"Rs.")]/following-sibling::font

每个细节的元素数量:20

旁注:请注意元素状况。有些广告缺少此字段。因此,元素数量可能低于 20 或 21。

关于java - 如何使用 Jsoup 库获取对象的所有详细信息并将其保存到 bean 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62459879/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com