gpt4 book ai didi

Python 获取 Javascript 变量的值

转载 作者:太空宇宙 更新时间:2023-11-04 09:24:20 24 4
gpt4 key购买 nike

我正在抓取 instagram 页面 ( https://instagram.com/celmirashop ) 并获取脚本(HTML 和一些 javascript)。结果是这样的

<script>some script</script>
<script>some script</script>
<script>some script</script>
<script>window._sharedData = {"config":{"csrf_token":"sSqrj6c8tfN1HwOIlwmpqONT2bAPhtNu","viewer":null etc....</script>

我已经创建了这样的脚本

import urllib.request
import json
import re
from bs4 import BeautifulSoup

web = urllib.request.urlopen("https://instagram.com/celmirashop")
soup = BeautifulSoup(web.read(), 'lxml')
pattern = re.compile(r"window._sharedData = .")
script = soup.find("script",text=pattern)
print(script)

并给我一个我想要的特定 javascript 的结果。像这样

<script>window._sharedData = {"config":{"csrf_token":"sSqrj6c8tfN1HwOIlwmpqONT2bAPhtNu","viewer":null etc....</script>

如何获取 window._sharedData 的值?并循环它。因为我想保存在mysql中

最佳答案

假设以 ; 结尾并且仅在您可以在 response.text 上使用以下正则表达式模式时发生

import re

s = '''<script>window._sharedData = {"config":{"csrf_token":"sSqrj6c8tfN1HwOIlwmpqONT2bAPhtNu","viewer":null"};</script>'''
p = re.compile(r'window\._sharedData = (.*);')
print(p.findall(s)[0])

关于Python 获取 Javascript 变量的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58532497/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com