2022-06-30 / Peng Zheng
Choose virtual environment to use in the notebook
1 | conda activate XX_ENV |
Then, click the add button to launch a notebook with the customized kernels.
报错”pytorch错误:RuntimeError: received 0 items of ancdata”
- 起因: PyTorch多线程共享tensor是以file_descriptor的打开文件方式实现的, 而当其打开文件的数量超过系统的可打开文件数量限制时, 即出现此error. 通过
ulimit -a
可查看如open files
等信息. - 解决:
sudo ulimit -n 4096
– 给系统设置更大的可打开文件数.torch.multiprocessing.set_sharing_strategy('file_system')
– 将文件打开方式从file_descriptor修改为file_system, 摆脱其open files
- Reference.
- Win10使用vscode+ssh连接时, 不需读取相关的密钥/公钥, 直接读取账户下的
即可. - 切换远端文件夹免密 – 创建远端
, 粘贴自己的和.ssh/id_xx.pub
进入其中即可. - 当在同一个集群租借不同的实例时, 实例在ssh中都会显示同一个域名作为
, 导致在vscode中难以区分. 此时需要打开之前的.ssh/config
, 将Host
变量修改为自定义的名称即可. - 数据全部传至百度云, 上传下载都有10M+/s的速度.
- 注意使用0卡模式传数据或配环境.
- 运行很长一段时间后, nohup中没有记录任何错误, 程序却被kill – loss记录时缺失了一处.item(), 造成内存泄漏. 当使用tmux或直接在前台运行, 能够打印更多error相关的有效信息.
PermaLink: http://ZhengPeng7.github.io/2022/07/01/CloudGPU-related/