- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在 AWS 上名为 Glue 的新 ETL 工具中使用 NumPy 和 Pandas 等包的最简单方法是什么?我在 Python 中有一个完整的脚本,我想在利用 NumPy 和 Pandas 的 AWS Glue 中运行。
最佳答案
您可以检查使用此脚本作为粘合作业安装的最新 python 包
import logging
import pip
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)
if __name__ == '__main__':
logger.info(pip._internal.main(['list']))
截至 2020 年 6 月 30 日
Glue as 已预安装这些 python 包。所以 numpy
和 pandas
都被涵盖了。
awscli 1.16.242
boto3 1.9.203
botocore 1.12.232
certifi 2020.4.5.1
chardet 3.0.4
colorama 0.3.9
docutils 0.15.2
idna 2.8
jmespath 0.9.4
numpy 1.16.2
pandas 0.24.2
pip 20.0.2
pyasn1 0.4.8
PyGreSQL 5.0.6
python-dateutil 2.8.1
pytz 2019.3
PyYAML 5.2
requests 2.22.0
rsa 3.4.2
s3transfer 0.2.1
scikit-learn 0.20.3
scipy 1.2.1
setuptools 45.1.0
six 1.14.0
urllib3 1.25.8
virtualenv 16.7.9
wheel 0.34.2
如果它们存在于用于构建附加 .whl
的 requirements.txt
中,您可以在 glue-python 中安装其他包。 whl
文件在您的脚本启动之前被收集并安装。我还建议您查看 Sagemaker Processing,这对于基于 python 的作业来说更容易。与 glue-python shell 的无服务器实例不同,您在那里不限于 16gb 的限制。
关于python - 将 AWS Glue Python 与 NumPy 和 Pandas Python 程序包结合使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46329561/
我目前正在将Java与Play框架一起使用。我已经进行了JUnit测试,并且尝试使用IntelliJ CoverageRunner测量覆盖率。 不幸的是,游戏会生成一些垃圾分类,而IntelliJ会将
有人告诉我,当您在 Oracle 中创建过程时,您应该创建一个包含过程的包。这是真的吗? MS 中的程序与 Oracle 中的程序相同吗? 最佳答案 您不必将过程和函数放在包中,但通常认为这是最佳做法
我有一个 Django 项目,我想使用 manage.py runserver 在端口 80 上运行。在我的项目中,我使用 Wand库,我已经使用 Homebrew 软件安装了 freetype 和
我正在阅读 OCA Java SE 7 学习指南和包。但是,我在 Eclipse 中输入了与书中相同的代码,但出现了此错误。错误是 Exception in thread "main" java.la
我在 Windows 10 的 Powershell 中安装 Az 模块时遇到错误消息。有什么想法吗? 使用的命令: Install-Module Az -AllowClobber 错误消息: Pac
有没有办法为 .net 核心应用程序获取 WinAPI(user32.dll 部分)绑定(bind)(例如包含方法/枚举/结构声明的 nuget 包)。 Or 是 PInvoke 我需要手动调用的每个
我正在使用 expo 构建一个 React Native 项目。我在 Windows 上,所以我启用了 WSL 并从微软商店安装了 ubuntu。接下来我运行 expo build:android。我
我的 C# 应用程序使用我编写的 C++ WinRT 组件来获取使用 Direct X 的系统字体列表。 这是基于这个例子: http://msdn.microsoft.com/en-us/libra
我是一名优秀的程序员,十分优秀!