首页天道酬勤ubuntu16安装,ubuntu卸载cuda10

ubuntu16安装,ubuntu卸载cuda10

张世龙 05-04 20:09 46次浏览

一、准备工作参照官网资料进行准备工作

1 .验证自己的电脑中是否有能够支持CUDA的GPU

$ lspci | grep -i nvidia我的显示是Tesla P800

ifitislistedin http://developer.NVIDIA.com/cuda-GPUs,your GPU is CUDA-capable

2 .验证自己的Linux版本是否支持cuda:thecudadevelopmenttoolsareonlysupportedonsomespecificdistributionsoflinux.thesearelisson

uname -m cat /etc/*release

3 .验证系统中是否安装了gcc,然后在终端上输入$ gccv

4 .确保系统上安装了kernel header和软件包开发

sudo apt-getinstalllinux-headers-$ (uname-r )

结果显示,已升级了0个软件包,新安装了0个软件包。 要卸载0个软件包,x个软件包尚未升级。 这表明系统中已经存在,不需要重新安装。

二、下载安装cuda (官网步骤)1.首先注意版本! 浏览版本之间需要https://www.tensor flow.org/install/source # Linux

gcc需要降级,cudnn需要7,TensorFlow需要1.12.0

2 .官网的下载页面上有最新的10.1版,在后面的过程中可能才还不支持TensorFlow,所以我想下载低版本的cuda

尝试下载旧版本的cuda地址并选择cuda 9.*,但其中Ubuntu最多仅支持17.10个。 我的是18.04,所以只能选择cuda 10.0

2 .安装: runfile格式的安装,据说错误率更低的1) 禁用 nouveau驱动

如果没有内容输出,lsmod | grep nouveau将成功禁用

我执行以上操作后,还是有输出,reboot重启后,无输出了。

2)执行安装脚本

sudo sh cuda_***_linux.run (您下载的runfile安装软件包名称) ) ) ) ) ) ) ) ) ) )。

注意:请不要首先为accept、安装项目选择安装驱动程序。 请不要有洞。 除此之外是

提示:

* * warning :完成安装! thisinstallationdidnotinstallthecudadriver.adriverofversionatleast 384.00 isrequiredforcuda 10.0功能性to work .忽略运行

可以看到软连接指向10.0版

3 )设置环境变量

将以下路径添加到主目录的~/.bashrc文件中

导出LD _ library _ path=$ LD _ library _ path :/usr/local/cuda-10.0/lib 64导出path=$ path 3360/usr /

4 )检测安装是否成功

会得出以下结果

据博客报道,如果这个result是pass的话就成功了

时隔几个月,cuda又不能正常使用了

指示缺少驱动程序(安装时选择了卸载,但不知道为什么又出现了错误) )。

参考网上安装说明

(1)方式1

Ubuntu-driversdevicessudoubuntu-driversautoinstall #自动安装错误

(2)

)方式2

(3)方式3

只能尝试手动下载,在https://www.nvidia.com/Download/index.aspx官网选择

下载之后 ,会进入交互界面

提示说一句有410.48版本

但是再用sudo dpkg --list | grep nvi,查不到410.48,用cat /proc/driver/nvidia/version,也是无此文件

交互过程中提示内核版本之类的问题,也是无疾而终

(4)方式4:重装,并选择install driver

发现这次报错了,显示missing recommended library,可由此篇博客解决,但解决之后对驱动没有太大影响

在nvidia安装日志(/tmp/cuda_install_2971.log)里发现是dkms的问题

又寻根到/var/lib/dkms/nvidia/...

找到error:unrecognized command line option 'fstack-protector-strong'

gcc之前是4.8.5问题,我升级到5.5.0,再重新安装

刚刚dkms的问题没有了,甚至执行cxddd的代码都能OK

但存在另一个问题

 

(有人说这个问题不重要)

那难道是没有卸载之前版本的问题吗? sudo apt-get purge nvidia*

一狠心就执行,全部删掉,然后重新sh .run文件

还是不行。。。。重装机器吧。。。

三、安装cudnn

下载地址,需要自行注册,然后选择cuda10.0的对应版本,cudnn 7.4.1

解压缩:tar -xzvf cudnn-9.0-linux-x64-v7.tgz

sudo cp cuda/include/cudnn.h /usr/local/cuda/includesudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

查看cudnn版本  cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

如果出现所示版本信息,说明安装成功。 

 

四、安装TensorFlow-GPU版本

查看python3对应的TensorFlow安装版本,发现cpu与gpu并存

1.尝试安装对应gpu版本

pip3 install tensorflow-gpu==1.13.1

结果import的时候报错

查了下原因,应该是前面设置的环境变量没有生效,参考博客

(1)临时解决方法1(下次登录失效)

在终端执行前面的的export操作,发现终于能正常运行

(2)临时解决方法2

 

2.判断运行的TensorFlow是cpu还是gpu # 转自知乎.a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')c = tf.matmul(a, b)# Creates a session with log_device_placement set to True.sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))print(sess.run(c))

可以看到输出信息都是关于GPU的,说明TensorFlow-GPU版本正常工作了

戴尔电脑bios设置u盘启动,dell新版bios硬盘启动顺序