云GPU使用相关事宜
2023-09-27 / Peng Zheng   

Choose virtual environment to use in the notebook

1
2
3
conda activate XX_ENV
conda install ipykernel
ipython kernel install --user --name=XX_ENV
  • Then, click the add button to launch a notebook with the customized kernels.

  • Reference.

报错”pytorch错误:RuntimeError: received 0 items of ancdata”

  • 起因: PyTorch多线程共享tensor是以file_descriptor的打开文件方式实现的, 而当其打开文件的数量超过系统的可打开文件数量限制时, 即出现此error. 通过ulimit -a可查看如open files等信息.
  • 解决:
    1. sudo ulimit -n 4096 – 给系统设置更大的可打开文件数.
    2. torch.multiprocessing.set_sharing_strategy('file_system') – 将文件打开方式从file_descriptor修改为file_system, 摆脱其open files的限制.
  • Reference.

AutoDL平台

  • Win10使用vscode+ssh连接时, 不需读取相关的密钥/公钥, 直接读取账户下的.ssh/config即可.
  • 切换远端文件夹免密 – 创建远端~/.ssh/authorized_keys, 粘贴自己的和.ssh/id_xx.pub进入其中即可.
  • 当在同一个集群租借不同的实例时, 实例在ssh中都会显示同一个域名作为Host, 导致在vscode中难以区分. 此时需要打开之前的.ssh/config, 将Host变量修改为自定义的名称即可.
  • 数据全部传至百度云, 上传下载都有10M+/s的速度.
  • 注意使用0卡模式传数据或配环境.
  • 运行很长一段时间后, nohup中没有记录任何错误, 程序却被kill – loss记录时缺失了一处.item(), 造成内存泄漏. 当使用tmux或直接在前台运行, 能够打印更多error相关的有效信息.
PermaLink: http://ZhengPeng7.github.io/2023/09/28/CloudGPU-related/