gpt4 book ai didi

hadoop - 将Solr索引同步到Hadoop友好格式

转载 作者:行者123 更新时间:2023-12-02 21:54:12 31 4
gpt4 key购买 nike

我想对当前存储在Solr中的数据进行推荐,聚类和分类。 Solr是我们的主要数据存储。我刚刚开始使用Mahout + Hadoop。

我假设Solr索引不是用于输入Mahout(或其他Hadoop作业)的友好格式;并且必须先将其转换为文本格式,然后才能对其执行 map 缩减操作。也就是说,我必须在HDFS中有一个文本文件,该文件的始终将与Solr中的数据同步。

在Solr for Hadoop / Mahout中使用数据的最佳计划是什么?我应该将Solr中的更改同步到HDFS中的文件吗?

这是我计划将solr数据同步到文件的方式。对于用户X:

  • 自LATEST_TIME以来获取100个文档
  • 将这些文档转换为文本并以文件名存储:'X_LATEST_TIMESTAMP'
  • 将X_LATEST_TIMESTAMP与主文件合并:如果主文本文件说doc ID 123具有内容,而X_LATEST_TIMESTAMP说该文档已删除,则新的主文件反射(reflect)了更改
  • 更新时间LATEST_TIME
  • 最佳答案

    您最好查看DataStax之类的东西,它包括并集成(AFAIK)Solr,Cassandra和Hadoop。当然,这是商业产品。他们有一个社区版,但我认为它没有集成Solr。

    关于hadoop - 将Solr索引同步到Hadoop友好格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16587099/

    31 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com