python - 使用 beautifulsoup 从 <script> 标签中获取数据-6ren

python - 使用 beautifulsoup 从 <script> 标签中获取数据

转载作者：行者123 更新时间：2023-12-05 06:02:01

32

4

我使用 Beautifulsoup 从网站获取数据，我需要的数据位于 <script> 标记内。

我收到类似这样的响应，想获取“name”、“thumbnailUrl、account、Id”的内容:

<script type="text/javascript">
        var modelData = {
            name: 'somename',
            thumbnailUrl: 'https://website.com/blob/bG9uZ2RhbjovL0ZPVVIvbGRwcm9kLWRlL3ljb3B6YTY4N0pnQ2Nfc3JYcVV3VXc9PQ',
            account: '5LH7J44IYPAGEZEYA9KIL',
            Id: 'someid'
        };
        store.initOmlib({"ClusterEndpoints":{"ONE":["http://us.site.me"],"TWO":["http://sg.site.me"],"FOUR":["http://de.site.me"],"FIVE":["http://in.site.me"],"SIX":["http://ja.site.me"],"SEVEN":["http://br.site.me"]},"ClusterEndpointsInternal":{"ONE":["http://usi.site.me"],"TWO":["http://sgi.site.me"],"FOUR":["http://dei.site.me"],"FIVE":["http://ini.site.me"],"SIX":["http://jai.site.me"],"SEVEN":["http://bri.site.me"]},"ClusterKeys":{"FIVE":"Cf0Mw0I2/cZf6alwfMhelEEOb6xq23IhPvC9E4eoaXU=","SIX":"bfYXVkWhs/gv+TCJ3EeeEE3oxiZRDpJO0fecUGdq2Qg=","ONE":"xkkzyNJmZ1DmNPxGwrykZ2O91f10KNXQvspa15nKKGs=","FOUR":"xMRCvh1eki9JEceBcV7Bx49uaQYpX8FdD0eZ+LCGqCc=","TWO":"XaG4I7b7wDOZ+lGHSPwbJ2HLkIFf0UGYAWz9c9LkiQk=","SEVEN":"LuSOGA/u5PL7rP8PG3cr6bqgQy7jXEv65iuHUX9ePQY="},"DefaultCluster":"ONE","IdpEndpoints":["http://idp.site.me"],"IdpKey":"MIOC9PS8KIwXOXSHtplBZLSpIqcifns0jzExtkHXw1g=","ReadOnlyEndpoints":["http://site.gg"],"ReadOnlyKey":"QKxHfdLVgbn+VYpnUiCFLMq/hhUpkpx7occEY3Z0Wnk="}, {"Id":"001026a1c1064a1b9305400814783c2385e2a978f13a","Secret":"0110de13b2187fe3078e13d9f6ad4e7567fdc143e915c9cb4df67ca"});

        if (store.renderArc) {
            store.renderArc(document.getElementById('root'), modelData, translateTable);
        } else {
            store.renderUser(document.getElementById('root'), modelData, translateTable);
        }
    </script>

我得到上述响应的代码是这样的:

url = 'https://website.com'
response = urllib.request.urlopen(url)
soup = BeautifulSoup(response.read(), "html.parser")
results = soup.find_all("script", {"type": "text/javascript"})[6]
print(results)

如何进入 <script> 标签并获取其中的数据？我已经查看了这里的其他几篇文章，但没有一篇能够成功地开始工作。

最佳答案

您可以使用此示例将 javascript 对象转换为 JSON:

import re
import json
from bs4 import BeautifulSoup


html_doc = """
<script type="text/javascript">
        var modelData = {
            name: 'somename',
            thumbnailUrl: 'https://website.com/blob/bG9uZ2RhbjovL0ZPVVIvbGRwcm9kLWRlL3ljb3B6YTY4N0pnQ2Nfc3JYcVV3VXc9PQ',
            account: '5LH7J44IYPAGEZEYA9KIL',
            Id: 'someid'
        };
        store.initOmlib({"ClusterEndpoints":{"ONE":["http://us.site.me"],"TWO":["http://sg.site.me"],"FOUR":["http://de.site.me"],"FIVE":["http://in.site.me"],"SIX":["http://ja.site.me"],"SEVEN":["http://br.site.me"]},"ClusterEndpointsInternal":{"ONE":["http://usi.site.me"],"TWO":["http://sgi.site.me"],"FOUR":["http://dei.site.me"],"FIVE":["http://ini.site.me"],"SIX":["http://jai.site.me"],"SEVEN":["http://bri.site.me"]},"ClusterKeys":{"FIVE":"Cf0Mw0I2/cZf6alwfMhelEEOb6xq23IhPvC9E4eoaXU=","SIX":"bfYXVkWhs/gv+TCJ3EeeEE3oxiZRDpJO0fecUGdq2Qg=","ONE":"xkkzyNJmZ1DmNPxGwrykZ2O91f10KNXQvspa15nKKGs=","FOUR":"xMRCvh1eki9JEceBcV7Bx49uaQYpX8FdD0eZ+LCGqCc=","TWO":"XaG4I7b7wDOZ+lGHSPwbJ2HLkIFf0UGYAWz9c9LkiQk=","SEVEN":"LuSOGA/u5PL7rP8PG3cr6bqgQy7jXEv65iuHUX9ePQY="},"DefaultCluster":"ONE","IdpEndpoints":["http://idp.site.me"],"IdpKey":"MIOC9PS8KIwXOXSHtplBZLSpIqcifns0jzExtkHXw1g=","ReadOnlyEndpoints":["http://site.gg"],"ReadOnlyKey":"QKxHfdLVgbn+VYpnUiCFLMq/hhUpkpx7occEY3Z0Wnk="}, {"Id":"001026a1c1064a1b9305400814783c2385e2a978f13a","Secret":"0110de13b2187fe3078e13d9f6ad4e7567fdc143e915c9cb4df67ca"});

        if (store.renderArc) {
            store.renderArc(document.getElementById('root'), modelData, translateTable);
        } else {
            store.renderUser(document.getElementById('root'), modelData, translateTable);
        }
    </script>
"""

soup = BeautifulSoup(html_doc, "html.parser")
# locate the script, get the contents
script_text = soup.select_one("script").contents[0]

# get javascript object inside the script
model_data = re.search(r"modelData = ({.*?});", script_text, flags=re.S)
model_data = model_data.group(1)

# "convert" the javascript object to json-valid object
model_data = re.sub(
    r"^\s*([^:\s]+):", r'"\1":', model_data.replace("'", '"'), flags=re.M
)

# json decode the object
model_data = json.loads(model_data)

# print the data
print(model_data["name"])
print(model_data["thumbnailUrl"])
print(model_data["account"])

打印:

somename
https://website.com/blob/bG9uZ2RhbjovL0ZPVVIvbGRwcm9kLWRlL3ljb3B6YTY4N0pnQ2Nfc3JYcVV3VXc9PQ
5LH7J44IYPAGEZEYA9KIL

或者:用re解析即可(html_doc与前面的例子相同):

soup = BeautifulSoup(html_doc, "html.parser")
script_text = soup.select_one("script").contents[0]

name = re.search(r"name: '(.*?)'", script_text).group(1)
thumbnailUrl = re.search(r"thumbnailUrl: '(.*?)'", script_text).group(1)
account = re.search(r"account: '(.*?)'", script_text).group(1)

print(name)
print(thumbnailUrl)
print(account)

打印:

somename
https://website.com/blob/bG9uZ2RhbjovL0ZPVVIvbGRwcm9kLWRlL3ljb3B6YTY4N0pnQ2Nfc3JYcVV3VXc9PQ
5LH7J44IYPAGEZEYA9KIL

关于python - 使用 beautifulsoup 从 <script> 标签中获取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67051131/

32

4

0

文章推荐： reactjs - Autocomplete Material-UI 中如何默认打开下拉列表？

文章推荐： react-native - 在 react-native 中自动播放关于元素焦点的视频

SQL语句执行深入讲解（MySQL架构总览->查询执行流程->SQL解析顺序）
前言：一直是想知道一条SQL语句是怎么被执行的，它执行的顺序是怎样的，然后查看总结各方资料，就有了下面这一篇博文了。本文将从MySQL总体架构--->查询执行流程--->语句执
javascript - 哪个更好 : <script type ="text/javascript">. ..</script> 或 <script>...</script>
哪个更好用或者更方便: ... 或 ... 最佳答案你真的需要类型属性吗？如果您使用的是 HTML5，则不会。否则，是的。 HTML 4.01 和 XHTML 1.0 指定了 type属性是必需的，
javascript - 哪个更好 : <script type ="text/javascript">. ..</script> 或 <script>...</script>
哪个更好用或者更方便: ... 或 ... 最佳答案你真的需要类型属性吗？如果您使用的是 HTML5，则不会。否则，是的。 HTML 4.01 和 XHTML 1.0 指定了 type属性是必需的，
shell - 为什么 [ a -gt b ] (不是 [ "$a"-gt "$b"])似乎有效？
我在 unix shell 脚本中遇到了一个问题。让我用一个非常简单的例子来问你。假设，我正在获取用户输入并比较两个数字。 echo "Enter the first number" read a
javascript - <title></title> 元素中的上标文本
是否可以在中制作文本？上标？如果是，怎么办？ Meraki Baked Goods (Post 7: Dad's 50th) 最佳答案以下似乎对我有用: Dad's 50ᵗʰ
c# - <script>...</script> 在转发器控制代码中未显示在页面呈现的源代码中
我有一个转发器控件，其中部分没有出现。 “Display”存储的代码设置如下: item.Display = " AudioPlayer.embed('ffcedea7-4822-465f-
.NET .resx 文件 : why does name attribute often start with >>
在许多 .resx 文件中，我遇到了这样的事情: OurLabel 我的问题是:为什么属性name在许多情况下 - 但并非总是如此 - 从 >> 开始? 最佳答案您在 Winfo
javascript - 如何将代码添加到 <script> </script> 中
我正在尝试将代码添加到脚本中，但它不起作用 var script= document.createElement('script'); script.type= 'text/javas
javascript - <script> </script> block 中空格的规范化
我想编写正则表达式来读取 block 内的数据在 HTML 中。作为脚本，我认为空白具有灵 active 。为了使我的正则表达式模式健壮，我必须预测不同数量的空白。也许有比在我的模式中放置许多空白匹
javascript - 有没有办法让标题中的文本等于 <title></title> 中定义的页面标题？
基本上，我讨厌必须更改标题代码以及位于中的页面标题。 header 中的标签....我可以使用 JavaScript 或 HTML 来自动设置某个标题中的内容是否等于页面标题？最佳答案是的，
python - 在特定的 <script> </script> 标记之间提取
我可以使用以下代码提取所有标签。但是，我不知道如何在之间查看内部。和标签。特别是，假设我只想要这一部分(中间还有更多内容，但我对此不感兴趣): var quoteData
javascript - 通过标题覆盖 <title>TITLE</title>
有什么方法可以覆盖无法直接编辑的页面标题，只能在页眉中添加 Javascript？我不能直接编辑的行是: Title of the page 我能想到的解决这个问题的唯一方法是在我可以通过我的门户后
javascript - 如何将<script></script>集成到fancybox2的content方法中
我正在尝试在 fancybox 的内容方法中加载 javascript 内容。 $('#streaminput').on("click", function() { $('#streaminpu
php - 为什么PHP对AJAX的响应包含<script> aBunchOfJavascriptHere </script>？
我试图在 2 小时内解决这个问题，但运气不佳，也许这不是那么技术性，但我需要帮助! 我有一个 AJAX 脚本，需要将 GET 请求发送到同一页面上的 php 脚本。PHP 脚本这样终止 i
php - 如何创建表单来删除 <script></script> 标签并删除该标签之间的内容或脚本？
如何创建表单来删除标签并删除标签之间的内容或脚本。请任何人为我制作一份表格(我已经问过这个问题，但没有找到任何有用的答案。) 像这样的形式:(此形式仅删除标签，不删除text标签之间的脚本) //
HTML5 <header>
<footer> 简单堆叠
我现在已经为此苦苦挣扎太久了。我想做的只是简单地堆叠后续内容，就像您将一张 1 列 3 行的表格一样。我试图放弃旧的 HTML 和 CSS 方法，转而采用首选的 HTML5 页面结构方法。像这样.
javascript - 从聊天框在 <title></title> 中创建新消息通知
我正在尝试为 my chat box 创建通知，当有人向您发送新消息时，会在“谈话”标题旁边看到。我尝试过多种方法，但从来没有成功过。 a busy cat http://goawaymom.com/
javascript - <script> 里面 <script> 无法弄清楚我该怎么做
我最初并不期望需要调用除 Iframe 之外的任何内容，但显然我错了。这是我的代码，您可以看到为什么它破坏了脚本中的脚本-/脚本有什么方法可以解决这个问题？ $ad_blocks = arra
html - 如何在 <iframe> 之上叠加 <textarea>？
我希望能够在正在播放的视频之上使用全屏文本区域。我以为 position: fixed;顶部:0；可能有效，但没有。 HTML CSS * { box-sizing: border-box;
javascript - 如何加载外部JS文件并在Moodle页面的<script></script>中调用？
我找到了how to load external JS file into moodle?但这并不能解决我的问题。我必须加载一个外部 JS 文件，因为它是 VOD 服务的播放器。必须在中调用它

首页

博学

6Ren·AI

商城

python - 使用 beautifulsoup 从 <script> 标签中获取数据