由买买提看人间百态

topics

全部话题 - 话题: fp16
(共0页)
t******g
发帖数: 1136
1
在昨日举行的华为全连接大会上,华为终于揭开了其自研AI芯片的神秘面纱。
据华为轮值总裁徐直军介绍,华为这次推出的两款芯片分别是昇腾910和昇腾310,这都
是华为基于其自研的达芬奇架构打造的两款新品。其中昇腾910是当前单芯片计算密度
最大的AI芯片。该产品采用7nm工艺打造,最大功耗做到350w,其他参数也是表现优越
:在半精度 (FP16)下,可以做到256 TeraFLOPS,在整数精度 (INT8)下,更是做到了
512 TeraOPS,另外,该款芯片还支持128 通道的全高清视频解码器(H.264/265)。
华为昇腾910介绍
徐直军表示,华为昇腾910在与英伟达和谷歌的芯片对比时,也拥有强大的领先优势。
芯片将在20 19年Q2到来,这会在云端给华为带来训练和逻辑服务系列的强大支持,冲
破现在市场被TPU和英伟达垄断的局面。
华为昇腾910介绍
另外,华为还发布了昇腾310,按照徐直军的说法,华为这款极致高效计算低功耗的AI
SoC是针对边缘AI而推出的产品。作为一款同样采用达芬奇架构的芯片,华为昇腾310采
用了12nm FFC工艺制造,在半精度 (FP16)情况下,可... 阅读全帖
w***g
发帖数: 5958
2
来自主题: Programming版 - 懂deepmind得说说
对,中间结果存内存,不管是在CPU里还是GPU里都是大开销。
还有就是精度。从本质上来说神经网络activation其实是可以
做成binary的,activate/non-activate。实际不行,因为
如果是binary的话就难以back-propagate error。但是应该
也不需要32位的精度。如果做成低精度浮点数可以剩下来
不少资源。现在nvidia已经支持16位浮点数了,也已经有人
用上了,但是加速还不是很快,主要是用来省内存。
我觉得原因是目前只是把fp32变成fp16,而没有针对神经
网络的特点有选择地使用。nvidia GPU内部的fp16计算应该
也无法比fp32计算快1倍。但是如果上FPGA的话就可以实现
加速。
q*p
发帖数: 963
3
来自主题: Hardware版 - 自己配机器之我见
不知道为什么NVidia最近不怎么追求双精度FP64计算能力了。
倒是很推FP32和FP16.
y*z
发帖数: 3244
4
来自主题: Hardware版 - 4k 有游戏是不是没有什么意义?
gtx 980 Ti真心是好卡,跟titan X相比。
NV最近发布了新的计算卡,Tesla M60和Tesla M40.
Tesla M60的规格就是gtx 980x2, 4096 CUDAs,但是配16GB显存;
Tesla M40的规格则跟titan X一样,都是3072 CUDAs,12GB显存。
性能么,和GTX的游戏卡一样,单精度很NB,双精度挫了。不过现在讲究混合计算,
CUDA 7.5就支持这个。(所谓混合计算了,例如迭代法,中间都用单精度计算,最后几
步用双精度提高计算精度。因为单精度FP32向来都比双精度FP64快,能节省时间。现在
流行FP16,比单精度更快。)
有趣的是,都不带硬件ECC。ECC以软件的形式提供。感情原来是卖驱动程序和固件。
l*******m
发帖数: 1096
5
来自主题: Programming版 - 懂deepmind得说说
标准的floating point 乘法内部都要先增加比特位,所以fp16比fp32快不了多少,当
然fixed point就另说了,这个一般码工是胜任不了的
binary weighs 似乎可行
http://arxiv.org/pdf/1511.00363v2.pdf
v*******e
发帖数: 11604
6
来自主题: Programming版 - AI和deep learning芯片领域好文一片

他针对手机来说,针对手机里面各种计算资源进行计算力的估计,然后说各种软件使用
这些计算力资源的现状。除了说手机AI运用主要是fp16和int8的计算之外,这篇文章和
AI关系不大。
w***g
发帖数: 5958
7
来自主题: Programming版 - titan v评测不高啊
https://github.com/u39kun/deep-learning-benchmark
网上还有几个类似的。
大致就是FP32能有20%的提高。
FP16能比FP32快一倍。
卖那么贵值吗? 我这里有点灭草了。
还有评测说挖矿比titan xp快一倍。
(共0页)