gpt4 book ai didi

elasticsearch - 索引到Elasticsearch具有奇怪的行为并产生意外结果

转载 作者:行者123 更新时间:2023-12-03 00:18:14 25 4
gpt4 key购买 nike

我正在使用apache pig将某些文档编入索引以进行Elasticsearch,但是当我这样做时,所有电子邮件都看起来像是哈希字符串。例如

    "_index": "es_test",
"_type": "base",
"_id": "AVGCeBXUxBi_sF1H5RcL",
"_source": {
"Email": "UmF3QHNoYXcuY2E=",

到目前为止,这是我的 pig 脚本
REGISTER /home/PigDump/elasticsearch-hadoop-2.1.1.jar;
DEFINE EsStorage org.elasticsearch.hadoop.pig.EsStorage('es.nodes=http://10.0.2.2:9200');
Customer = LOAD '/home/PigOut/Base.json/part-r-00000' USING JsonLoader();
STORE Customer INTO 'es_test/base' USING EsStorage;

所有其他字段看起来不错。有人知道为什么电子邮件变得混乱吗?

当我执行 DUMP时,这是输出示例:
(foobar@email.com,2008-05-14T01:32:00.000Z,60+,garden city,john Smith,remodeling,id,n,po box 555555,,some company, llc,usa,,555-555-5555,123-123-5555,83714,,002,160,100,159,,,,,,1)

我更改了一些数据以保护身份,但是您得到了要点,并且多个逗号来自某些字段为null的字段。

为了使事情更加混乱,我可以使用 es.mapping.id=Email将id设置为电子邮件,并且可以正常工作并且不对电子邮件进行哈希处理。

最佳答案

因此,答案就在于Pig使用我所使用的数据生成的模式文件。在模式文件中,电子邮件的类型为50,这是一个字节数组。当我将其更改为55(一个char数组)时,索引工作正常。因此,看起来像哈希值的实际上只是字节。我将添加有关字段的架构类型的后续问题,并在以后进行链接。

关于elasticsearch - 索引到Elasticsearch具有奇怪的行为并产生意外结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34161527/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com