Loading... ## 前言 这里对最近几个月遇到的环境大坑做一下总结,以后可能还会用到或者供他人参考。 ## ESXi ### 失败 - 模块“DevicePowerOn”打开电源失败。 该问题请参考我的另一篇文章[《VMWare ESXi 显卡直通(PCI设备直通)出现DevicePowerOn错误》](https://0x.c4a1.net/index.php/archives/12/) ## RHEL ### 使用现代化的操作系统及现代化的安装方式 1202年了,别再用编译安装了... 以及你可能是旧版系统的受害者( [《现代操作系统的现代显卡驱动安装方法》](https://c4a15wh.cn/index.php/archives/13/) 两条命令解决的事情为啥要那么麻烦 ### 关闭UEFI安全启动 错误样例: ``` NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. ``` ESXi或PVE等虚拟化环境请自行前往控制台关闭相应VM的安全启动。 裸机请前往系统BIOS关闭安全启动。 ## Docker ### 基础环境配置 参考[《GPU Docker 环境的配置与 Docker 相关注意事项》](https://c4a15wh.cn/index.php/archives/3/) ### 不要忘记gpus参数 在启动GPU Dokcer容器的时候,不要忘记加"--gpus"参数,用法: `--gpus all` 或 `--gpus 0,1,2,3,4,···` ### 使用半成品镜像快速进行环境部署 在docker容器中手动安装driver和cudnnlib是完全没必要且耗费时间的行为,可以使用[NVIDIA-Cuda镜像库](https://hub.docker.com/r/nvidia/cuda)进行快速工业化部署及打包对应业务镜像。 最后修改:2025 年 01 月 15 日 © 允许规范转载 赞 如果这对你有用,我乐意之至。