gpt4 book ai didi

python - 数据流管道中的外部 Python 依赖项

转载 作者:行者123 更新时间:2023-12-02 09:47:31 25 4
gpt4 key购买 nike

Python 依赖项可以加载到 Google Cloud Dataflow 管道中吗?

我想使用gensim's phrase modeler它逐行读取数据以自动检测常见短语/二元组(经常相邻出现的两个单词)。

因此管道的第一次运行是将每个句子传递给这个短语建模器。

管道的第二遍将采用相同的短语建模器,并将该短语建模器应用于每个句子,以识别应一起建模的短语。示例:

  • 如果 machinelearning 在语料库中频繁出现,它们将被转换为单个单词 machine_learning

这可以在 Dataflow 中完成吗?

能否传递构建/需求文件以强制在工作计算机上执行pip install gensim

最佳答案

您可以查看此页面来管理管道中的依赖项:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies

示例:对于 PyPI 上的包,您可以通过添加以下命令行选项来使用需求文件:

--requirements_file 要求.txt

关于python - 数据流管道中的外部 Python 依赖项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46694135/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com