gpt4 book ai didi

database - 收集、维护和确保庞大数据集准确性的最佳实践是什么?

转载 作者:太空狗 更新时间:2023-10-30 01:45:29 27 4
gpt4 key购买 nike

我提出这个问题是为了寻求有关如何设计系统的实用建议。

像 amazon.com 和 pandora 这样的网站拥有并维护着庞大的数据集来运行他们的核心业务。例如,亚马逊(以及所有其他主要电子商务网站)有数百万种待售产品、这些产品的图片、价格、规范等。

忽略来自第三方卖家的数据和用户生成的内容,所有这些“东西”都必须来自某个地方并由某人维护。它也非常详细和准确。如何?他们是怎么做到的呢?是否只有一大群数据录入员,或者他们是否设计了系统来处理繁重的工作?

我公司也有类似情况。我们维护着庞大的(百万条记录中的 10 条)汽车零件目录及其适用的汽车。我们已经这样做了一段时间,并提出了许多程序和流程来保持我们的目录不断增长和准确;但是,似乎我们需要将目录增加到 x 个项目才能将团队增加到 y

我需要想出一些方法来提高数据团队的效率,希望我可以从其他人的工作中学习。感谢任何建议,但更多的是指向我可以花一些认真时间阅读的内容的链接。

最佳答案

使用访问者。

  1. 即使您每个项目都有一个人,也会有错误的记录,客户找到它。因此,让他们将项目标记为“不合适”并发表简短评论。但别忘了,他们不是你的员工,不要对他们要求太多;看看 Facebook 的“喜欢”按钮,它很容易使用,并且不需要用户花费太多精力。良好的性能/价格。如果 Facebook 中有一个必填字段,询问“你为什么喜欢它?”,那么任何人都不应该使用该功能。

  2. 访问者还可以帮助您隐含方式:他们访问项目页面并使用搜索功能(我指的是内部搜索引擎和外部搜索引擎,例如 Google)。您可以从访问者的事件中获取信息,例如,设置访问量最大的项目的顺序,那么您应该将更多的人力集中在列表的顶部,而不是“长尾”。

关于database - 收集、维护和确保庞大数据集准确性的最佳实践是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4505502/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com