azure - 无法对 Azure Data Lake Gen2 文件使用通配符-6ren

azure - 无法对 Azure Data Lake Gen2 文件使用通配符

转载作者：行者123 更新时间：2023-12-03 02:32:18

25

4

我能够将我的 Data Lake Gen2 存储帐户与我的 Azure ML 工作区正确连接。当尝试从数据存储区读取一组特定的 Parquet 文件时，它将花费很长时间并且不会加载它。

代码如下:

from azureml.core import Workspace, Datastore, Dataset
from azureml.data.datapath import DataPath

ws = Workspace(subscription_id, resource_group, workspace_name)

datastore = Datastore.get(ws, 'my-datastore')

files_path = 'Brazil/CommandCenter/Invoices/dt_folder=2020-05-11/*.parquet'

dataset = Dataset.Tabular.from_parquet_files(path=[DataPath(datastore, files_path)], validate=False)
df = dataset.take(1000)

df.to_pandas_dataframe()

每个 Parquet 文件大约有。 300kB。文件夹中有 200 个 - 通用且直接来自 Databricks。奇怪的是，当我尝试从完全相同的文件夹中读取一个 Parquet 文件时，它运行顺利。

其次，包含少于 20 个文件的其他文件夹也将顺利运行，因此我排除了由于某些连接问题而导致的可能性。更奇怪的是，我尝试了如下通配符:

# files_path = 'Brazil/CommandCenter/Invoices/dt_folder=2020-05-11/part-00000-*.parquet'

理论上这只会将我定向到 00000 文件，但它也不会加载。 super 奇怪。

为了尝试克服这个问题，我尝试使用 Dask 通过 ADLFS 连接到数据湖，并且它正常工作。我知道这可以是处理“大型”数据集/文件的解决方法，但直接从 Dataset 类方法执行此操作会非常好。

有什么想法吗？

编辑:打字错误

最佳答案

如果您使用以下命令更新某些软件包，则可以解决该问题:

pip install --upgrade azureml-dataprep azureml-dataprep-rslex

正如 Microsoft 的一些人告诉我的那样，这个问题将在下一个 azureml.core 更新中得到修复。

关于azure - 无法对 Azure Data Lake Gen2 文件使用通配符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64599174/

25

4

0

文章推荐： azure - 以编程方式拉取 docker 镜像并上传到 Azure 应用服务

文章推荐： azure - 将 Log Analytics 心跳指标流式传输到事件中心

文章推荐： azure - 有没有办法在不创建 csproj 的情况下安装 nuget 包？

c# - gen 0、gen 1、gen 2 何时准确触发？
第 0 代:所以我读到当 gen 0 超过大小阈值时 gen 0 触发。但我也读到GC不是在"new"时执行的，因为"new"只是向前滑动一个地址。那么，它什么时候检查它是否超过了触发 gen 0 G
java - a "static final"直接分配到哪里？ young gen or old gen 还是 perm gen？
“static final”是直接分配到young gen还是old gen还是perm gen？ (我想它很可能会在我想的时间内落入老一代。)如果它在 perm gen 中分配，那么当在 Perm
python - 如何使用 tornado gen.Task/gen.coroutine 装饰器实现并行
这是一种情况，当必须将并行性引入后端服务器时。我愿意查询 N 个 ELB，每个查询 5 个不同的查询，并将结果发送回 Web 客户端。后端是Tornado，根据我在docs中多次阅读的内容，在过去
haskell - 为什么 `fst (Random.split gen)` 返回的生成器有时会产生与 `gen` 相同的结果？
我正在尝试创建列表的随机排列。我是函数式语言中随机性的新手，还没有完全掌握 monad，但我以我认为应该有效的方式使用了 Random.newStdGen 和 Random.Shuffle.shuff
python - tornado.gen.engine 与 tornado.gen.coroutine 的区别
经过 tornado.gen documentation有人可以帮我理解 tornado.gen.coroutine 和 tornado.gen.engine 之间的确切区别最佳答案正如 gen.
asynchronous - Tornado @web.asynchronous @gen.coroutine VS @gen.coroutine 有什么区别
在 document , 如果方法也用@gen.coroutine 修饰，则不需要@web.asynchronous。像这样 @web.asynchronous @gen.coroutine def
c++ - gen~ phasor() 是做什么的？ (将 Max/MSP gen 转换为 C++)
我们在带有相量的同一个 gen~ 代码框对象中有两个地方: wander = phasor(in8/dense); ...some code later... phas = (triangle(pha
python - 是否可以将 Tornado 的 gen.engine 和 gen.Task 与扭曲一起使用？
我正在从事的项目都是用 Tornado 编写的，但我包含了一些 Twisted 来处理异步 XML-RPC。我想知道您是否可以使用 Tornado 的 gen.engine 和 yield gen.T
protocol-buffers - 如何检查 protoc-gen-go 和 protoc-gen-validate 的版本？
如何查看protoc-gen-go和protoc-gen-validate的版本？ protoc-gen-go --version protoc-gen-validate --version 我试过上
go - protoc-gen-go-rpc : program not found or is not executable - Where do I get protoc-gen-go-rpc?
我们使用的是 protoc-gen-go v2(v2 是 google.golang.org/protobuf，v1 是 github.com/golang/protobuf) 当我们尝试编译 gRP
python - tornado 使用 AsyncHTTPClient 和 gen 请求 url，使用 raise gen.Return 获取异常
刚接触tornado，所以跟着tornado的指导练习，当我开始使用Coroutines的时候，例子是这样说的: 从 Tornado 导入生成 @gen.coroutine def fetch_cor
python-3.x - 使用 next(gen) 和 gen.send(None) 启动 Python 3 生成器有区别吗？
当您创建 Python 3 生成器并立即开始运行它时。您会收到如下错误: TypeError: can't send non-None value to a just-started generato
javascript - 当我在 eclipse 中清理和构建 android 项目时，它会删除 bin 文件夹和 gen 文件夹并重新生成空的 gen 和 bin 文件夹
当我在 eclipse 中清理和构建 android 项目时，它会删除 bin 文件夹和 gen 文件夹的内容，并且不会重新创建它只是创建空文件夹 gen 和 bin 为什么会发生这种情况我搜索了很多
kotlin - 找不到 protoc-gen-grpc-kotlin-1.0.0-windows-x86_64.exe (io.grpc :protoc-gen-grpc-kotlin:1. 0.0)
我想使用来自 protoc-gen-grpc-kotlin 的 protoc-gen-grpc-kotlin-1.0.0我得到了 Execution failed for task ':generat
kotlin - 找不到 protoc-gen-grpc-kotlin-1.0.0-windows-x86_64.exe (io.grpc :protoc-gen-grpc-kotlin:1. 0.0)
我想使用来自 protoc-gen-grpc-kotlin 的 protoc-gen-grpc-kotlin-1.0.0我得到了 Execution failed for task ':generat
clojure gen 类可变参数构造函数
在 :constructors 映射和后续的 -init 定义中，我如何表示可变参数构造函数(假设父类(super class)有多个构造函数，其中一个是可变参数)？最佳答案由于可变参数本质上是对
docker - 无法从Nginx创建文件到docker-gen
我正在使用jwilder/nginx-proxy，以便在我的domain.tld中有一个项目，在api.domain.tld中有一个项目。我关注了this tutorial，自定义default.co
android - java缺少所需的源文件夹: 'gen'
我刚刚重新格式化了我的电脑。我有 windows xp sp3 32 位。我安装java jdk安卓SDK eclipse ide 当我去创建一个新的 android 项目时，我得到了这个错误。项目
android - gen 已存在但不是源文件夹
我正在开发我的 Android 项目，删除未使用的库后，我收到错误: myproject/gen already exists but is not a source folder. Convert
protoc-gen-doc自定义模板规则详解
protoc-gen-doc 自定义模板规则详解配套演示工程此项目中所用 proto 文件位于 ./proto 目录下，来源于官方proto示例此项目中所列所有

首页

博学

6Ren·AI

商城

azure - 无法对 Azure Data Lake Gen2 文件使用通配符