python - 在特定的 <script> </script> 标记之间提取-6ren

python - 在特定的 <script> </script> 标记之间提取

转载作者：行者123 更新时间：2023-12-01 04:43:07

28

4

我可以使用以下代码提取所有标签。但是，我不知道如何在 <script> 之间查看内部。和</script>标签。特别是，假设我只想要这一部分(中间还有更多内容，但我对此不感兴趣):

<script>
            var quoteDataObj = [{"symbol":"CLCV1","symbolType":"symbol","code":0,"name":"WTI Crude Oil (Jun\u002715)","shortName":"OIL","last":"59.54","exchange":"New York Mercantile Exchange","source":"","open":"60.69","high":"61.31","low":"59.14","change":"-1.39","currencyCode":"USD","timeZone":"EDT","volume":"189607","provider":"CNBC Quote Cache","altSymbol":"CL/M5","curmktstatus":"REG_MKT","realTime":"false","assetType":"DERIVATIVE","noStreaming":"false","encodedSymbol":"CLCV1"}]
</script>

不确定我需要添加什么代码？我需要在 [{ 之间获取逗号分隔的内容和}]进入Python字典。

编辑以采纳答案中的建议:

# -*- coding: utf-8 -*-
"""
Created on Thu May  7 10:31:02 2015

@author: idf
"""

import re
import json
import urllib2
from lxml import etree 


url='http://data.cnbc.com/quotes/CLCV1'

def wgetUrl(target):
    try:
        req = urllib2.Request(target)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3 Gecko/2008092417 Firefox/3.0.3')
        response = urllib2.urlopen(req)
        outtxt = response.read()
        response.close()
    except:
        return ''

    return outtxt

def extract_text(elem):        
    if elem is None:
        print None
    else:
        return ''.join(i for i in elem.itertext())

content = wgetUrl(url)
node = etree.HTML(content)
parser = etree.HTMLParser()


nodes = node.findall(r'.//script')
for x in nodes:
    matches = re.findall(r'quoteDataObj\s\=\s(\[.+\])', x)
    if len(matches) > 0:
        python_dict = json.loads(matches[0])

最佳答案

您可以在脚本上使用正则表达式来查找 quoteDataObj 变量并使用 JSON 加载其内容。示例:

import re
import json

#...your code...

content = wgetUrl(url)
matches = re.findall(r'quoteDataObj\s\=\s\[(\{.+\})\]', content)
if len(matches) > 0:
    python_dict = json.loads(matches[0])

输出:

{u'altSymbol': u'CL/M5',
 u'assetType': u'DERIVATIVE',
 u'change': u'-1.39',
 u'code': 0,
 u'curmktstatus': u'REG_MKT',
 u'currencyCode': u'USD',
 u'encodedSymbol': u'CLCV1',
 u'exchange': u'New York Mercantile Exchange',
 u'high': u'61.31',
 u'last': u'59.54',
 u'low': u'59.14',
 u'name': u"WTI Crude Oil (Jun'15)",
 u'noStreaming': u'false',
 u'open': u'60.69',
 u'provider': u'CNBC Quote Cache',
 u'realTime': u'false',
 u'shortName': u'OIL',
 u'source': u'',
 u'symbol': u'CLCV1',
 u'symbolType': u'symbol',
 u'timeZone': u'EDT',
 u'volume': u'189607'}

使用LXML解析

OP 表示有兴趣了解如何通过 LXML 解析解决该问题。这是:

import re
import json

#...your code...

for x in nodes:
    matches = re.findall(r'quoteDataObj\s\=\s\[(\{.+\})\]', str(x.text))
    if len(matches) > 0:
        python_dict = json.loads(matches[0])

关于python - 在特定的 <script> </script> 标记之间提取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30106669/

28

4

0

文章推荐： python - 在可重用的 django 应用程序中导入设置文件

文章推荐： java - Drive api 下载文件时出错

文章推荐： SOLR - 结果分组的结果计数

文章推荐： python - Openpyxl - 命名工作簿时遇到问题

linux - : ". [script]" or "source [script]", "bash [script] or $SHELL [script]"和 "./[script]"或 "[script]"有什么区别？
我知道 source 和 . 做同样的事情，如果标题中的其他命令对不一样，我会感到惊讶事情(因为我正在运行 bash 作为我的 shell，$SHELL [script] 和 bash [script
docker - "exec:\"scripts/script.sh\": stat scripts/script. sh: 没有那个文件或目录
我在尝试启动第一个 super 账本网络时遇到此错误: $ ./byfn.sh -m up Starting with channel 'mychannel' and CLI timeout of '
javascript - 哪个更好 : <script type ="text/javascript">. ..</script> 或 <script>...</script>
哪个更好用或者更方便: ... 或 ... 最佳答案你真的需要类型属性吗？如果您使用的是 HTML5，则不会。否则，是的。 HTML 4.01 和 XHTML 1.0 指定了 type属性是必需的，
javascript - 哪个更好 : <script type ="text/javascript">. ..</script> 或 <script>...</script>
哪个更好用或者更方便: ... 或 ... 最佳答案你真的需要类型属性吗？如果您使用的是 HTML5，则不会。否则，是的。 HTML 4.01 和 XHTML 1.0 指定了 type属性是必需的，
javascript - 使用此语法的正确术语 <script src ="script.js"></script>
使用此语法包含外部 javascript 文件的正确术语是什么: 是否包含script.js？执行了吗？是链接的吗？是叫吗？我刚刚运行了该文件吗？最佳答案我认为这里最常见的术语是加载外部 Jav
javascript - <script></script> 还是 <script/>？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Why don't self-closing script tags work? 我刚刚发现 HTML 中的
google-apps-script - 在 googleapps-script 中收到 "The OAuth identity of this script is invalid"错误
没什么可说的了。我尝试寻找这意味着什么，但找不到。该脚本几个月来一直运行良好，并在 12 小时前停止，没有对其进行任何更改。手动运行显示此错误。最佳答案我遇到了同样的问题，我只需从脚本编辑器中单击
google-apps-script - 从另一个 Apps Script 项目运行 Apps Script Web App 时如何以编程方式进行身份验证
我是 Apps 脚本的新手，正在尝试了解使用另一个帐户在一个帐户中运行/触发脚本的基础知识。需要注意的是:我想在访问脚本的用户而不是拥有脚本的用户的情况下运行脚本——以便将运行时间分配给访问的用户。
google-apps-script - 从另一个 Apps Script 项目运行 Apps Script Web App 时如何以编程方式进行身份验证
我是 Apps 脚本的新手，正在尝试了解使用另一个帐户在一个帐户中运行/触发脚本的基础知识。需要注意的是:我想在访问脚本的用户而不是拥有脚本的用户的情况下运行脚本——以便将运行时间分配给访问的用户。
javascript - HTML中导入多个js文件<script/>和<script></script>的区别
我最近遇到这个问题，我试图在我的 HTML 页面中导入多个 js 文件，如下 - 但我面临的问题是，它只加载第一个 js 文件，而其余的 js 文件没有加载。我还检查了浏览器中的网络部分，剩下的
Javascript 语法 <script/> VS <script></script> - 最奇怪的事情
Duplicate Why don’t self-closing script tags work? 我正在编写一个 ASP.net 页面，它在 JS 文件中有一些用于客户端身份验证的 Javascr
javascript - 为什么在 HTML5 中使用 <script></script> 而不是 <script/>？
为什么以下行在许多浏览器(mozilla、IE)中不起作用？为什么一定要这样设置？最近我将我的项目从 XHTML 转换为 HTML5，我遇到了一些小但令人不安的不兼容性。最佳答案虽然脚本元
javascript - <script/> 与 <script></script> 使用 webpack 和 Angular
这个问题已经有答案了: Why don't self-closing script elements work? (12 个回答) 已关闭 7 年前。经过两天的 Angular 与 Webpack
pine-script - Pine Script - 条件绘图样式
我在任何地方都找不到这个问题的答案；甚至在官方文档中也没有。我已经尝试自己编写代码，但它不起作用，所以它可能无法实现。在下面的示例中，您可以使用条件颜色进行绘图: //STACKED EMAs
scripting - Tera Term Scripting，需要帮助开发宏
我正在通过串行端口使用 Tera Term 在板上进行一些测试。最近我发现我可以在 Tera Term 中编写一些脚本，所以我一直在做研究以帮助自动化并使测试更容易一些。我知道 Tera Term
pine-script - Pine Script 中的数组是否有任何解决方法
数组在 PineScript 中不可用。有解决办法吗？有没有人开发过代码，作为数组使用？我需要它做什么？我想计算每条趋势线或 S/R 水平的触及次数。最佳答案要实现计数器，您可以创建一个变量，
pine-script - Pine Script 中的当前价格指标
有没有办法创建一个指标来反射(reflect) Pine Script 中股票的当前价格？我需要这个指标，因为我需要在蜡烛关闭之前输入订单(当有特定的交叉时)并且回测数据是逐条提供的。我认为一个指标可
javascript - jQuery 和 HTML : Script works from console yet does not run from file or <script></script>
我的网站有一个脚本，如果从移动设备查看页面，格式和样式会发生变化。在网站的 2/3 页上，该脚本效果很好，正如我想要的那样。但是在最后一个上，用于更改格式和样式的脚本运行但未完全运行。我已经尝试从我的
google-apps-script - 谷歌文档脚本 : Sharing a script in my account/unreviewed scripts via Marketplace (replacement for previous chrome add-ons store)
我是否正确，市场上没有直接替代此流程: 在 chrome 插件商店中发布未列出直接将链接分享给可以使用脚本的人特别是，这些机制允许我使用我在所有 google dsoc 上编写的脚本。随着转向市
google-apps-script - Google Script 应用程序在隐身模式下失败
我有一个简单的 Google Script 发布为具有匿名访问权限的网络应用程序。代码可用 here网络应用程序可用 here . code.gs function doGet() { retur

首页

博学

6Ren·AI

商城

python - 在特定的 <script> </script> 标记之间提取

使用LXML解析