gpt4 book ai didi

Azure Purview - 扫描文件类型

转载 作者:行者123 更新时间:2023-12-03 02:23:18 25 4
gpt4 key购买 nike

我们正在扫描 Azure 数据湖(第 2 代)。在扫描结果中,我们得到一些我们不希望出现在 Assets 寄存器中的文件 - 例如,如下所示的配置文件 (.wmk)。有没有办法隐藏某种类型的所有文件?我查看了扫描规则,看看自定义规则是否有效,并且文件类型 (.wmk) 未列为扫描目标,但它确实出现在 Assets 寄存器中。

类似的情况也适用于数据湖文件夹,我们只想查看资源集,而不是 Assets 中的文件夹。

有办法阻止它们显示在资源中吗?

enter image description here

最佳答案

在扫描之前,您可以通过在列表中选择适当的项目来将扫描范围指定到特定文件夹或子文件夹。一旦数据源被注册和扫描,数据映射就会提取有关数据源的结构(分层命名空间)的信息。此信息用于构建数据发现的浏览体验。

enter image description here

Note:

  • All future assets under a certain parent will be automatically selected if the parent is fully or partially checked
  • After a successful scan, there may be delay before newly scanned assets appear in the browse experience. This delay may take up to afew hours.

在目录中搜索 Assets 时,可以使用运算符来编写搜索查询。

具体而言,您可以使用全部大写的 bool 运算符 NOT 来指定 Assets 不能包含的内容作为子句右侧的关键字,或使用 '*'> 与一对多字符匹配的通配符,以便您的查询不会返回包含 (.wmk) 属性的资源。

Example: Expense NOT wmk NOT *.wmk

(可以在单个查询中根据需要多次组合运算符。)

资源集的概念:

  • 资源集是目录中的单个对象,代表存储大量 Assets 。
  • 解决将大量数据 Assets 映射到单一逻辑资源,Azure Purview 使用资源集。
  • Azure Purview 在扫描时自动检测资源集。这该功能查看通过扫描获取的所有数据,将其与一组定义的模式进行比较。然后它从完整扫描到样本扫描。
  • 在示例扫描中,它仅打开它认为的文件子集位于资源集中。对于它打开的每个文件,它都会使用其架构并运行其分类器。
  • Azure Purview 然后在打开的资源中查找最新资源资源并使用该资源的架构和分类目录中整个资源集的条目。 存储聚合有关组成资源的分区资源的信息设置。

自定义或覆盖Azure Purview 如何检测哪些 Assets 被分组为资源集以及它们在目录中的显示方式,您可以在管理中心定义模式规则.

创建资源集模式规则:

  1. 前往管理中心。从菜单中选择模式规则在资源集标题下。选择 + 新建以创建新规则设置。

enter image description here

  • 输入资源集模式规则的范围。 (文件夹路径)
  • 适当更新字段,在您的情况下主要是,合格名称不分组为资源集
  • enter image description here

    Note: After a pattern rule is created, all new scans will apply therule during ingestion. Existing assets in the data catalog will beupdated via a background process which can take up to a few hours.

    示例:不要将 .wmk 文件分组到资源集中

    输入文件:

    https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
    https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk

    模式规则

    Scope: https://myazureblob.blob.core.windows.net/bar/

    Display name: Expense-{{Fileid}}

    Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk

    Resource Set: false

    输出单项 Assets

    Asset 1

    Display name: Expense-7

    Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls

    此外,如果您觉得这没有帮助,您可以分享您的Feedback所以产品团队可以研究这个想法。 ✌

    关于Azure Purview - 扫描文件类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67998584/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com