python - 如何从其字符串表示创建 ObjectID [pyarrow]-6ren

python - 如何从其字符串表示创建 ObjectID [pyarrow]

转载作者：行者123 更新时间：2023-12-04 10:34:50

25

4

我正在将一个 Python 对象保存到一个客户端的 Plasma 存储中，并想在另一个客户端中加载它。我的想法是将 ObjectID 作为 HTTP 请求的一部分传递。所以我有类似的东西:

import pyarrow.plasma as plasma

client = plasma.connect("/tmp/plasma")
payload = {"a": 1}
object_id = client.put(payload)
object_str = str(object_id)
print(object_str)  # outputs: "ObjectID(8d8e54e5cb547962a6d16ff2869c2c3282ff6550)"

在我的目标客户端中，我希望我能够执行以下操作:

import pyarrow.plasma as plasma
client = plasma.connect("/tmp/plasma")

data = client.get("8d8e54e5cb547962a6d16ff2869c2c3282ff6550")

但这不起作用，如 client.get期待 plasma.ObjectID对象，而不是字符串标识符。但是后来我找不到任何方法来创建 plasma.ObjectID使用此标识符的对象。它说我需要传入 20 个字节，但我不确定如何从此 ID 中获取正确的 20 个字节。我尝试过类似 plasma.ObjectID(b'8d8e54e5cb547962a6d16ff2869c2c3282ff6550') 的事情无济于事。

我发现唯一有效的方法是列出商店中的所有对象，例如“client.list()”，然后在返回的字典中对 ObjectID 键的字符串表示进行字符串匹配。

如果我没有遵循预期的设计，我该如何:

将 python 对象保存到服务器 1 中的 Plasma

通过 HTTP 将引用从一台服务器传递到另一台服务器

在服务器 2 中访问此对象？

最佳答案

找到了解决办法。打印的 ObjectID 是十六进制代码。您可以将其转换为字节，如下所示:

# source
import pyarrow.plasma as plasma
client = plasma.connect("/tmp/plasma")

payload = {"a": 1}
object_id = client.put(payload)
object_str = str(object_id)
print(object_str)  # outputs: "ObjectID(8d8e54e5cb547962a6d16ff2869c2c3282ff6550)"

# client
id_str = "8d8e54e5cb547962a6d16ff2869c2c3282ff6550"
object = plasma.ObjectID(bytes.fromhex(id_str))
data = client.get(object)

关于python - 如何从其字符串表示创建 ObjectID [pyarrow]，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60234607/

25

4

0

文章推荐： elasticsearch-6 - 内部动态脚本编译过多，最大 : [75/5m]

文章推荐： c# - ContainerVisual.Offset 和 Visual.VisualOffset 有什么区别？

pyarrow - 在 pyarrow 表中删除重复项？
有没有一种方法可以使用纯 pyarrow 表对数据进行排序并删除重复项？我的目标是根据最大更新时间戳检索每个 ID 的最新版本。一些额外的细节:我的数据集通常至少分为两个版本: 历史最终历史数据
python - pyarrow 将列添加到 pyarrow 表
我有一个形状为 6132,7 的 pyarrow 表名称 final_table 我想向该表中添加列 list_ = ['IT'] * 6132 final_table.append_column
python - pyarrow 将列添加到 pyarrow 表
我有一个形状为 6132,7 的 pyarrow 表名称 final_table 我想向该表中添加列 list_ = ['IT'] * 6132 final_table.append_column
python - 使用 pyarrow 按大小重新分区 pyarrow 表并写入多个 Parquet 文件？
正如标题所述，我想通过使用 pyarrow 并写入多个 Parquet 文件，按大小(或行组大小)重新分区 pyarrow 表。我查看了 pyarrow 文档，并确定了分区数据集章节，这似乎是一个方
python - Pyarrow.lib.Schema 与 pyarrow.parquet.Schema
当我尝试加载多个分区的 Parquet 文件时，由于缺少用空值填充架构的数据，某些架构被无效推断。我认为在 pyarrow.parquet.ParquetDataset 中指定架构可以解决此问题，但我
pandas - 对 UserWarning : pyarrow. open_stream 的任何修复均已弃用，请使用 pyarrow.ipc.open_stream？
在使用 pyarrow 函数将 Spark df 转换为 pandas df 时，我收到以下警告: UserWarning: pyarrow.open_stream is deprecated, pl
python - 在 Glue pythonshell 中使用 pyarrow - ModuleNotFoundError : No module named 'pyarrow.lib'
创建了 pyarrow 的 egg 和 whl 文件并将其放在 s3 上，以便在 pythonshell 作业中调用它。收到此消息: 工作代码: import pyarrow raise 错误，whl
apache-spark - UserWarning : pyarrow. open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告
我正在通过 pyspark 在本地运行 spark 2.4.2，用于 NLP 中的 ML 项目。 Pipeline 中的部分预处理步骤涉及使用通过 pyarrow 优化的 pandas_udf 函数。
python - 如何在 python 中的 PyArrow 和 C++ 中的 Arrow 之间进行接口(interface)时将 PyArrow 表转换为 Arrow 表
我有一个针对 Apache Arrow C++ 库构建的 C++ 库，使用 Pybind 绑定(bind)到 python。我希望能够用 C++ 编写一个函数来获取用 PyArrow 构造的表，例如:
python-3.x - 无法构建 pyarrow(对于 python 3.7)，错误消息为 ERROR : Could not build wheels for pyarrow which use PEP 517
我正在尝试在我的虚拟环境中安装 apache-beam[gcp]。 My python version is 3.7 My pip3 version is 20.0.2 什么时候尝
pyarrow - 如何将扫描仪中的投影列合并到新的数据集分区中
假设我加载了一个数据集 myds=ds.dataset('mypath', format='parquet', partitioning='hive') myds.schema # On/Off_Pe
python - Pyarrow 数据集读取特定列和特定行
有没有办法使用 pyarrow parquet 数据集来读取特定的列，如果可能的话过滤数据而不是将整个文件读入数据框？最佳答案从 pyarrow==2.0.0 开始，这至少可以通过 pyarrow
pyarrow - 使用数据构建表。避免创建数据框
Pandas 数据框很重，所以我想避免这种情况。但我想构造 Pyarrow Table 以便以 Parquet 格式存储数据。我搜索并阅读文档并尝试使用 from_array() 但它不起作用。
cmake - pyarrow 的构建轮失败
我正在尝试 pip install Superset pip install apache-superset 并低于错误 Traceback (most recent call last):
python - pyarrow 内存泄漏？
对于较大文件的解析，我需要循环写入大量的parquet文件。但是，似乎此任务消耗的内存在每次迭代中都会增加，而我希望它保持不变(因为内存中不应附加任何内容)。这使得扩展变得棘手。我添加了一个最小可重
pyarrow - 如何加入 2 个箭头表？
我想在一个公共(public)属性上连接两个 Arrow 表。 Arrow 是否有一些 C++ API 来实现相同的目的？我确实找到了一个叫做 HashJoin 的东西，但我不确定它是否可以用来连接
python - pyarrow.ParquetDataset > 分区列的架构
我有一个 pandas 数据框: import pandas as pd df = pd.DataFrame(data={"col1": [1, 2], "col2": [3.0, 4.0], "co
python - 如何从其字符串表示创建 ObjectID [pyarrow]
我正在将一个 Python 对象保存到一个客户端的 Plasma 存储中，并想在另一个客户端中加载它。我的想法是将 ObjectID 作为 HTTP 请求的一部分传递。所以我有类似的东西: impor
csv - Pyarrow read_csv 如何处理不同的文件编码？
我有一个 .dat 文件，我一直在用 pd.read_csv 读取它，并且总是需要使用 encoding="latin" 才能正确读取/没有错误.当我使用 pyarrow.csv.read_csv 时
pandas - 迭代 Pyarrow 表的最快方法
我正在使用 Pyarrow 库来优化 Pandas DataFrame 的存储。我需要尽可能快地逐行处理 pyarrow Table 而不将其转换为 Pandas DataFrame(它不适合内存)。

首页

博学

6Ren·AI

商城

python - 如何从其字符串表示创建 ObjectID [pyarrow]