python - 如何从元素不断变化的 JSONL 文件中提取元素？-6ren

python - 如何从元素不断变化的 JSONL 文件中提取元素？

转载作者：行者123 更新时间：2023-12-01 07:49:06

25

4

我想从 JSONL 文件中的标记中提取“文本”。如果存在标签，那么我也想提取它。如果它不存在，那么我想插入“O”作为标签的值

{"text":"This is the first sentence.","_input_hash":2083129218,"_task_hash":-536378640,"spans":[],"meta":{"score":0.5,"pattern":65},"answer":"accept","tokens":[
{"text":"This","id":0},
{"text":"is","id":1},
{"text":"the","id":2},
{"text":"first","id":3},
{"text":"sentence","id":4},
{"text":".","id":5}]}
{"text":"This is coded in python.","_input_hash":2083129218,"_task_hash":-536378640,"spans":[],"meta":{"score":0.5,"pattern":65},"answer":"accept","tokens":[
{"text":"This","id":0},
{"text":"is","id":1},
{"text":"coded","id":2},
{"text":"in","id":3},
{"text":"python","label":"Programming"},
{"text":".","id":5}]}

如果没有标签，可用于从 token 中提取文本和 id 的代码如下:(感谢我之前的 question 中的@DeveshKumarSingh)

import jsonlines

#Open the file, iterate over the tokens and make the tuples
result = [(idx+1, i['text'], i['id']+1) for idx, obj in enumerate(jsonlines.open('file.txt')) for i in obj['tokens']]

print(result)

预期输出:

最佳答案

您可以使用 dict.get 查找存在的标签，否则将其替换为默认值 O，即 i.get('label' ，'O')

import jsonlines

#Open the file, iterate over the tokens and make the tuples
result = [(idx+1, i['text'], i.get('label','O')) for idx, obj in enumerate(jsonlines.open('file.txt')) for i in obj['tokens']]

print(result)

输出将是

[(1, 'This', 'O'),
 (1, 'is', 'O'), 
(1, 'the', 'O'), 
(1, 'first', 'O'), 
(1, 'sentence', 'O'), 
(1, '.', 'O'), 
(2, 'This', 'O'), 
(2, 'is', 'O'), 
(2, 'coded', 'O'), 
(2, 'in', 'O'), 
(2, 'python', 'Programming'), 
(2, '.', 'O')]

关于python - 如何从元素不断变化的 JSONL 文件中提取元素？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56315060/

25

4

0

文章推荐： cmake - 使用 CMake 链接 GLEW

文章推荐： performance - ReactNative Flatlist - Flatlist 项的优化性能

文章推荐： makefile - 你如何制作一个makefile

文章推荐： python - 在多变量情况下使用 SymPy 求解时限制解集的域

python - 如何从元素不断变化的 JSONL 文件中提取元素？
我想从 JSONL 文件中的标记中提取“文本”。如果存在标签，那么我也想提取它。如果它不存在，那么我想插入“O”作为标签的值 {"text":"This is the first sentence."
Python:在大型 jsonl 文件中查找重复项
我正在尝试在 jsonl 文件中查找包含相同标识符值的所有 json 对象。如果我的数据如下: { "data": { "value": 42, "url": "url
json - 将 JSONL 文件转换为 CSV
我需要转换一个 JSONL文件到 CSV 以导入到电子表格中。有哪些选择可以轻松做到这一点？最佳答案您可以使用在互联网上很容易找到的著名 CSV 库来完成此操作。做一个简单的转换也不难。这是一个可
json - jsonl 文件的 MIME 类型是什么？
回复 http 时请求类型为 jsonl 的文件，即由新行分隔的 json 对象集合，我应该设置什么 MIME 类型？我试着搜索 jsonl mime type和 jsonl mimetype在 SO
json - 将 JSONL 转换为 JSON
有没有办法在 Linux 中以完整的 JSONL 文件深度将 JSONL 转换为 JSON？我发现了一些基于 jq 的方法，但它们不适用于 JSONL 文件的完整深度最佳答案这样的东西行得通吗？
python - 将 JSONL 键与 JSON 展开为列
我正在尝试使用 Python 的 pandas 读取 jsonl 文件，但不知道如何处理 json 的键。我正在做的是: pd.read_json('jsonfile', lines=True) 我
python - 将 JSONL 文件加载为 JSON 对象
我想在 python 中加载一个 JSONL 文件作为 JSON 对象。有没有简单的方法来做到这一点？最佳答案包括文件操作在内的完整步骤，适合我这样的新手假设您有一个 .jsonl 文件，例如:
Python 从 JSON 到 JSONL 的转换
我希望将一个标准的 JSON 对象操作为一个对象，其中每一行都必须包含一个单独的、自包含的有效 JSON 对象。参见 JSON Lines JSON_file = [{u'index': 1, u
python-3.x - 用 Python 创建 JSONL
我不知道如何创建 JSONL使用 Python3。 test = [{'a': 'b'}, {'a': 'b'}, {'a': 'b'}] with open("data.json", 'w') as
python - Pandas 数据框到 JSONL(JSON 行)的转换
我需要将 pandas 数据框转换为 JSONL 格式。我找不到一个好的包来做它并尝试自己实现，但它看起来有点丑而且效率不高。例如，给定一个 pandas df: label
json - 将 JSON 行序列 (JSONL) 转换为 JSON 数组
我有一个文件，其中每一行都是一个 JSON 对象。我想将文件转换为 JSON 数组。文件看起来像这样: {"address":"email1@foo.bar.com", "topic":"Some
python - 将 JSONL 文件转换为 CSV - "JSONDecodeError: Extra data"
我正在使用 tweepy 的 Streamlistener 来收集 Twitter 数据，我使用的代码会生成一个包含一堆元数据的 JSONL 文件。现在我想将该文件转换为 CSV，我为此找到了一个代码
amazon-web-services - 无法解析自定义 AWS Ground Truth 标记作业 list JSONL 文件
由于我的 AWS 账户的限制，我需要为 GroundTruth 标记作业手动创建标记作业 list 文件。然而， list 文件无法解析，即使该文件似乎符合 JSONL 标准 - https://js
python - 值错误: Unexpected character found when decoding 'true' while converting IOB to JSONL for SpaCy
我想将 IOB 格式文本文件转换为 SpaCy 格式，并为每个标记指定开始和结束索引。我运行这段代码: python -m spacy convert test_IOB.txt out --conv
python - 使用 python 保存换行符分隔的 json(又名 linejson、jsonlines、.jsonl 文件)的模式
使用 Python，我将 json 文档保存到单独的行中，如下所示: from bson import json_util # pymongo with open('test.json', 'ab')
visual-studio-code - 如何在 V.S. 中获得语法高亮支持？ JSONL 代码 — "JSON-Lines"— 当文件类型不受支持时？
我有一些 JSONL ("JSON Lines")使用 .jsonl 的文件因此，文件扩展名；我想知道是否有办法在中获得支持VS代码对于 JSONL — "JSON-Lines"— 当编辑器尚不支

首页

博学

6Ren·AI

商城

python - 如何从元素不断变化的 JSONL 文件中提取元素？