python - 如何: Python UDF dictionary return schema in PIG-6ren

python - 如何: Python UDF dictionary return schema in PIG

转载作者：太空狗更新时间：2023-10-29 21:08:55

33

4

使用 Apache PIG 时从 Python UDF 返回字典的输出模式是什么。

我有一个字典的字典，像这样:

dict = {x:{a:1,b:2,c:3}, y:{d:1,e:3,f:9}}

我的输出模式看起来像

@outputSchema("m:map[im:map[X:float,Y:float]]")

** 方括号，因为在 Pig 中我们使用 [] 作为字典转换成的 map 。

最佳答案

如果您使用标准的 jython UDF 而不是任何其他发行版，例如 mortar data 提供的 streaming_python，您需要做的就是:

@outputSchema('m:map[]')

key 将与您在 python 中设置的相同。如果你的 dict 中有其他词典，你不必担心，pig 会理解它并使用以下语法:

([first#{third=inner_dict},first#outter_dict])

将 dict 从 jython UDF 传回 pig 有一个很大的缺点，您只能为 dict 中的所有值设置一种数据类型，这意味着如果您不设置任何数据类型，pig 将使用 bytearray 作为数据类型，这在处理日期或复杂结构时可能是个问题。例如:

@outputSchema('m:map[chararray]')

元组和包:

当您想从 jython UDF 将元组或包返回给 pig 时，记住 python 的列表转换为包，元组转换为元组是很有用的。例如:

列表:

@outputSchema('m:bag{chararray}')

请记住，Pig 包中充满了元组，因此如果您想为您的包设置一个漂亮的结构，您可以在包内声明一个元组，然后您将能够设置要传递的所有数据类型。示例:

@outputSchema('map_reduce:bag{t:(key:chararray,value:int,start_date:datetime,end_date:datetime)}')

最后，元组在某种程度上应该是直观的，它们是使用 jython 时最容易使用的结构。在一个元组中，您可以设置任意数量的字段和任意数量的级别，只要您遵循上面的示例即可。您可以在一个元组中声明一个元组，一个具有包和其他值的元组等。

我强烈建议在尝试执行复杂操作或处理复杂数据类型(如 JSON 结构、数组和列表)时使用 Java UDF。学习曲线可能会稍微陡峭一些，但一旦通过，您的开发速度就会快得多，程序的吞吐量也会提高。

关于python - 如何: Python UDF dictionary return schema in PIG，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13350583/

33

4

0

文章推荐： python - 如何用参数填充正则表达式字符串

文章推荐： c++ - 指向基类的成员指针

schema.org - Schema.org中的priceRange属性是什么意思？
Schema.org中的 priceRange 属性是什么意思？ https://schema.org/priceRange 我不明白这是什么意思，我住在哈萨克斯坦，也许我的文化或语言不明确。您能举一
schema.org - schema.org 中的产品类别？
用作引用:https://support.google.com/webmasters/answer/146750?hl=en 您会注意到在“产品”下有一个属性类别，此外页面下方还有一个示例: Too
schema - Doctrine schema.yml 生成器
我对 Doctrine 很陌生。我用 Doctrine 为我自己做了两个小项目，但现在我要为我的客户创建大项目。该项目将有50多个表。有没有办法生成schema.yml？我尝试了 DB Designe
mongoose-schema - Mongoose Schema 静态与方法
在 Mongoose 模式中，我们可以通过两种方式创建方法 SchemaName.methods.functionName 和 SchemaName.statics.functionName . 静态
schema.org - Schema.org 中的产品列表
我读了这个Google doc .它说我们不使用列表中的产品。那么对于产品列表(具有多页的类似产品的类别，如“鞋子”)，推荐使用哪种模式？我用这个: { "@context": "htt
schema.org - schema.org 数据集和维基数据之间是否存在映射？
我目前在做DBpedia数据集，想通过wikidata实现schema.org和DBpedia的映射。因此我想知道 schema.org 和 wikidata 之间是否存在任何映射。最佳答案我认为
schema.org - schema.org 中的多个作者或贡献者
如果看一下 Movie在 schema.org 中输入，actor 和 actors 属性都是允许的(actor 取代 actors)。但是 author 和 contributor 属性没有等效项。
schema - 将 Vertica Schema 或架构中的所有表从一个物理集群复制到另一个物理集群
我正在尝试将 Vertica 架构从一个物理集群导出和导入到另一个物理集群。我的测试实例有一个集群，我的生产实例有 3 个集群。我探索了以下选项，但它们仅限于在一个物理 Vertica 实例上移动数
schema.org - Schema.org 中的多家餐厅
我们有一些餐厅有多个地点或分支机构。我想包含正确的 Schema.org 标记，但找不到任何允许列出多个餐厅的内容。每家餐厅都有自己的地址、电子邮件、电话和营业时间，甚至可能是“分店名称”。两个分
schema.org - Schema.org 的多个综合评级
我在一个页面中有多个综合评分片段。有没有办法让其中之一成为默认值？将显示在搜索引擎结果中的那个？谢谢大家! 更新:该网页本质上是品牌的页面。它包含品牌评论的总评分及其产品列表(每个产品的总评分)。
XML Schema 来验证 XML Schema？
有谁知道是否可以用另一个 XML 模式验证一个 XML 模式？如果是这样，那里有引用实现吗？我想使用 JAXB 解析模式文档。最佳答案当然。大多数时候，您只需将浏览器指向用作 XML 文档 nam
spring-boot - Swagger 声明 schema = @Schema(implementation = Map.class) 在 swagger-ui 中将 Schema 表示为 String
我正在尝试创建 springdoc swagger 文档，我想代表一个具有数据类型 Map 的请求正文以更好的方式为客户提供可读性。但是当我声明 @io.swagger.v3.oas.annotati
snowflake-schema - Snowflake 数据库中的 PUBLIC Schema
当我们创建数据库时会创建一个公共(public)模式，如果我们不指定任何模式，则会在公共(public)模式下创建表。如果您在从数据库中删除公共(public)模式时看到或遇到任何问题，能否告诉我，因
schema.org - 个人网站是否应该将根页面标记为 schema.org 'Person' ？
网站的根页面(即 http://example.com/ )的特殊之处在于它是默认的着陆页。它可能包含许多不同的对象类型。它可能被认为是一个网站，或者一个博客等... 但它是否也应该被标记为给定对象
schema.org - 如何将面包屑添加到 Schema.org 中的产品？
我网站的产品页面有面包屑导航。 Product 类型没有breadcrumb。我这样做: "@type": "Webpage", "breadcrumb": {... "mainEntity":
schema.org - OpenGraph 还是 Schema.org？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 1 年前。社区1年前审
java - 从 Confluence Schema 注册表中检索 Schema
我正在尝试从模式注册表中检索给定 kafka 主题的模式主题版本。我可以使用 client.register(schema-name, schema) 成功发布新版本，但我不确定如何检索版本。我在下面
schema.org - 我应该使用什么标记来描述使用 schema.org 的社交媒体链接？
我有一个地方/本地企业，它有各种字段，可以很好地映射到 schema.org 条目。有一个字段我不知道如何标记。我们有指向该企业社交媒体帐户的链接，例如他们的 Twitter 帐户、Facebook
go - 如何将范围设置为 terraform schema.schema 字段？
我在 schema.schema 中有一个 number_of_servers 字段，我需要为其设置一个范围。有什么办法吗？ Schema: map[string]*schema.Schema{
schema.org microdata : Do as schema. org 说的，还是谷歌说的？
在向我的站点添加微数据时，我使用了 schema.org 上的词汇表。目前，我使用 http://schema.org/SoftwareApplication 来标记软件。由于 schema.org

首页

博学

6Ren·AI

商城

python - 如何: Python UDF dictionary return schema in PIG