gpt4 book ai didi

linux - Bash 脚本解析 HTML 文件

转载 作者:太空狗 更新时间:2023-10-29 12:30:48 24 4
gpt4 key购买 nike

我正在使用 shell 脚本获取 FedEx 包裹的跟踪信息。当我执行脚本时,我传入跟踪号(我在互联网上找到的虚拟号码),并使用 curl:

#$1=797843158299
curl -A Mozilla/5.0 -b cookies -s "https://www.fedex.com/fedextrack/WTRK/index.html?action=track&action=track&action=track&tracknumbers=$1=1490" > log.txt

curl命令的输出是HTML代码,我需要的信息在标记行之间:

<!--TRACKING CONTENT MAIN-->
<div id="container" class="tracking_main_container"></div>

在该部分中,我需要解析交付信息。
我对脚本编写相当陌生,并尝试了一些我在网上找到的“| sed”建议,但没有任何效果。

最佳答案

这对于 curlwget 是不可能的,因为呈现最终页面是使用 创建的.可以使用其他支持 javascript 的工具,如

这是一个完整的工作示例,用于检查状态是否为已交付:

#!/usr/bin/python

useragent = "Mozilla/5.0 (X11; Linux x86_64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1"

import spynner
from lxml import etree

browser = spynner.Browser(user_agent = useragent)
browser.create_webview(False)
browser.load("https://www.fedex.com/fedextrack/WTRK/index.html?action=track&action=track&action=track&tracknumbers=797843158299")
browser.wait_load()

reddit = etree.HTML(browser.html)

try:
print reddit.xpath('//div[@class="statusChevron_key_status bogus"]')[0].text
except:
print "Undelivered"

输出

Delivered

关于linux - Bash 脚本解析 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27709826/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com