- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
今天我开始使用 Dask 和 Paramiko 软件包,部分是作为学习练习,部分是因为我正在开始一个需要处理大型数据集的项目( 10 GB),只能从远程虚拟机访问(即无法在本地存储)。
以下代码属于一个简短的帮助程序,它将为虚拟机上托管的大型 csv 文件创建 dask 数据帧。我想稍后将其输出(引用 dask 数据帧)传递给第二个函数,该函数将对其执行一些概述分析。
import dask.dataframe as dd
import paramiko as pm
import pandas as pd
import sys
def remote_file_to_dask_dataframe(remote_path):
if isinstance(remote_path, (str)):
try:
client = pm.SSHClient()
client.load_system_host_keys()
client.connect('#myserver', username='my_username', password='my_password')
sftp_client = client.open_sftp()
remote_file = sftp_client.open(remote_path)
df = dd.read_csv(remote_file)
remote_file.close()
sftp_client.close()
return df
except:
print("An error occurred.")
sftp_client.close()
remote_file.close()
else:
raise ValueError("Path to remote file as string required")
代码既不漂亮也不完整,我会及时用 ssh key 替换用户名和密码,但这不是问题。在 jupyter 笔记本中,我之前使用服务器上文件的路径打开了 sftp 连接,并使用常规 Pandas read_csv 调用将其读入数据帧。但是,这里使用 Dask 的等效行是问题的根源:df = dd.read_csv(remote_file)
。
我已经查看了在线文档( here ),但我无法判断我上面尝试的是否可行。看来对于网络选项,Dask 需要一个 url。参数传递选项,例如S3 似乎依赖于该基础设施的后端。不幸的是,我无法理解 dash-ssh 文档 ( here )。
我已经研究过 print 语句,唯一无法执行的行就是所述的那一行。出现的错误是:raise TypeError('url type not recognize: %s' % urlpath)类型错误:无法理解 url 类型:
任何人都可以为我指明实现我想要做的事情的正确方向吗?我希望 Dask 的 read_csv
能够像 Pandas 一样发挥作用,因为它基于相同的功能。
非常感谢任何帮助,谢谢。
附:我知道 Pandas 的 read_csv
chunksize 选项,但如果可能的话,我想通过 Dask 实现此目的。
最佳答案
在 Dask 的主版本中,文件系统操作现在使用 fsspec
,它与之前的实现(s3、gcs、hdfs)一起现在支持一些额外的 file-systems ,请参阅协议(protocol)标识符 fsspec.registry.known_implementations
的映射.
简而言之,如果您从 master 安装 fsspec 和 Dask,那么使用“sftp://user:pw@host:port/path”这样的 URL 现在应该适合您。
关于python - 是否可以结合使用 Paramiko 和 Dask 的 read_csv() 方法从远程服务器读取 .csv?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56623297/
我有一张 Excel 表格,用于更新玩家评分。 播放器 配售 初始化 1 2 3 4 金融评级 一个 1 2.0 1.000 0.018 0.016 0.014 2.007 D 2 -2.0 54.5
我有一个 map = std::map ,其中 myItemModel继承QAbstractItemModel . 我现在要合并所有 myItemModel合一myItemModel (其他所有元素模
我大量使用“do.call”来生成函数调用。例如: myfun <- "rnorm"; myargs <- list(n=10, mean=5); do.call(myfun, myargs); 但是
想象一下 InputStream 的以下变体: trait FutureInputStream { //read bytes asynchronously. Empty array means E
这是我的 C 代码: #include void sum(); int newAlphabet; int main(void) { sum();
我只是想选择类“.last”之后的每个元素。 HTML: 1 2 Jquery
我正在为一个项目构建一个 XML 反序列化器,我经常遇到这种类型的代码情况: var myVariable = ParseNDecimal(xml.Element("myElement")) == n
这是来自 Selecting the highest salary 的继续问题 假设有一个表 'wagetable' name lowhours highhours wage pri
我正在为我的程序创建一个战舰程序;该程序运行良好,但我试图确保当用户将坐标超出范围时,程序会说他们输入的坐标不正确。这是代码: #include #include void
我有一个函数,它为每种情况返回不同的 DWORD 值,如果出现错误。所以我有以下定义: #define ERR_NO_DB_CONNECTION 0x90000 #define ERR_DB_N
在派生类中引发基类事件以下简单示例演示了在基类中声明可从派生类引发的事件的标准方法。此模式广泛应用于 .NET Framework 类库中的 Windows 窗体类。在创建可用作其他类的基类的类时,应
我只是想知道这是否可能: use Modern::Perl; my @list = ('a' .. 'j'); map { func($_) } each(@list); sub func { m
我一直在使用 =IF(L2="","Active",IF(K2I2,"Late"))) 有效,但现在我需要检查 F 上的多个条件 专栏 我试过了 OR 函数 =IF(OR(F2="Scheduled"
我有 2 个命令,如下所示。 在视频中添加介绍图片 ffmpeg -y -loop 1 -framerate 10 -t 3 -i intro.png -i video.mp4 -filter_com
好的,我有这个公式可以根据名字和姓氏列表生成用户名。现在,虽然这可行,但我希望单元格改为引用我自己的 VBA 函数。但是,由于代码少得多,我仍然想使用原始公式。 我有这个公式: =SUBSTITUTE
我有两个 HAProxy 实例。两个实例都启用了统计信息并且工作正常。 我正在尝试将两个实例的统计信息合并为一个,以便我可以使用单个 HAProxy 来查看前端/后端统计信息。我试图让两个 hapro
我有一个 Observable,其中每个新值都应该引起一个 HTTP 请求。在客户端,我只关心最新的响应值;但是,我希望每个请求都能完成以进行监控/等。目的。 我目前拥有的是这样的: function
我的网站上有 TinyMCE 插件。在 TinyMCE 插件的 textarea 中添加图像时,我希望这些图像包含延迟加载。我网站的缩略图具有特定类型的延迟加载,其中 src 图像是灰色背景。根据用户
我希望合并润滑间隔,以便如果它们重叠,则从内部第一个时间获取最小值和从内部最后一个时间获取最大值并总结以创建一个跨越整个时间段的新间隔。这是一个reprex: library(lubridate, w
我有一个应用程序,它本质上是一个页眉、主要内容和一个始终可见的页脚。页脚可以改变大小,我想在页脚上方的主内容面板上放置一些工具。主要布局是用 flex 完成的,我阅读文档的理解是绝对定位通过相对于最近
我是一名优秀的程序员,十分优秀!