gpt4 book ai didi

tensorflow-serving - 使用 XLA 的 Tensorflow 服务

转载 作者:行者123 更新时间:2023-12-05 06:28:08 25 4
gpt4 key购买 nike

在使用 Tensorflow Serving 进行推理时是否可以启用 XLA 编译?

(我希望这只是一个未记录的配置问题,我可以避免实现自定义 Servable)。

最佳答案

@njs,

实际上不建议在推理时进行编译。推理时的编译会导致 HBM 内存不足,导致芯片无法处理请求。

推荐的解决方案是:

  1. 使用允许批量大小的批处理函数来限制运行时的编译次数。

  2. 在模型加载时而不是推理时对这些允许的批量大小进行所有编译。这样,您的模型就可以在加载后立即进行推理,而不是在推理时经历高延迟编译。

关于tensorflow-serving - 使用 XLA 的 Tensorflow 服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54671395/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com