w*****r 发帖数: 197 | 1 云计算刚被提出来时,主要是做存储和伺服器。后来大数据来了,可以挖掘,但是产生
价值的效率有瓶颈,所以显得有点不痛不痒。再后来,就是深度学习了,确实火了,但
是训练规模还是小。接下来,我觉得会有一个近乎无限数据,无限算力的时代,ML模型
将是软件的常态。 |
m*****n 发帖数: 3575 | 2 “我觉得会有一个近乎无限数据,无限算力的时代”
显卡都上10纳米 7纳米了
这已经是硅基芯片的极限了
所以目前的算力已经是极限算力了 |
x****u 发帖数: 44466 | 3 现在的CPU是优化低延迟和逻辑运算,数值上的优化空间还很大
如果人类决定走神经网络的路线,保守估计单机7nm也能做到现在的1000倍速度
【在 m*****n 的大作中提到】 : “我觉得会有一个近乎无限数据,无限算力的时代” : 显卡都上10纳米 7纳米了 : 这已经是硅基芯片的极限了 : 所以目前的算力已经是极限算力了
|
m******r 发帖数: 1033 | 4 你们又在关心人类的未来,宇宙的极限。 佩服佩服。 |
s******y 发帖数: 172 | 5 能不能展开讲讲?多谢。
【在 x****u 的大作中提到】 : 现在的CPU是优化低延迟和逻辑运算,数值上的优化空间还很大 : 如果人类决定走神经网络的路线,保守估计单机7nm也能做到现在的1000倍速度
|
x****u 发帖数: 44466 | 6 把现有ic上做巨大的多级cache,分支预测流水线乱序等等黑魔法全去掉然后往死里堆
只支持一二种激活函数的简单alu,ram连接本地化
这样的架构算神经网络死快,跑传统程序退回20年前的速度
【在 s******y 的大作中提到】 : 能不能展开讲讲?多谢。
|
w*****r 发帖数: 197 | 7 单卡瓶颈在云面前都不是事儿
: “我觉得会有一个近乎无限数据,无限算力的时代”
: 显卡都上10纳米 7纳米了
: 这已经是硅基芯片的极限了
: 所以目前的算力已经是极限算力了
【在 m*****n 的大作中提到】 : “我觉得会有一个近乎无限数据,无限算力的时代” : 显卡都上10纳米 7纳米了 : 这已经是硅基芯片的极限了 : 所以目前的算力已经是极限算力了
|
m*****n 发帖数: 3575 | 8 花钱啊
【在 w*****r 的大作中提到】 : 单卡瓶颈在云面前都不是事儿 : : : “我觉得会有一个近乎无限数据,无限算力的时代” : : 显卡都上10纳米 7纳米了 : : 这已经是硅基芯片的极限了 : : 所以目前的算力已经是极限算力了 :
|
g****t 发帖数: 31659 | 9 乘法是可以查表的...
以前的大型计算机也有过纯rom,ram的。
现在这套intc的东西和早先的CPU其实不太对的上号。
我之前讲过,微处理器是个学神经网络的博士发明的。
现在估计做软件的没几个知道microCPU和CPU不是一回事了。
实际上你要是查表算乘法,不走通用指令集,专门出一个深学协处理器。那速度限制就
只在IO
了。
不要笑,99乘法表类似的东西做乘法最快。
: “我觉得会有一个近乎无限数据,无限算力的时代”
: 显卡都上10纳米 7纳米了
: 这已经是硅基芯片的极限了
: 所以目前的算力已经是极限算力了
【在 m*****n 的大作中提到】 : 花钱啊
|
G*******d 发帖数: 8 | 10 查表是很慢的。深度学习现在慢的不是在计算部分,“一次”计算至少要访问“三次”
操作数(两次读,一次写)。寄存器的瓶颈压力极大。要增加寄存器数目的话,寄存器
访问速度会严重下降,不要说去访问L1,L2,L3 cache了。目前nvidia的所有架构都存在
这个问题。
“数据搬运”是非常昂贵的,大部分功耗发生在数据搬运上面。计算单元器件可以做到
local,但是寄存器,cache微观地看,距离计算单元较远,汇入连线的密度也不能无限
制增加,这是物理制程决定的。
【在 g****t 的大作中提到】 : 乘法是可以查表的... : 以前的大型计算机也有过纯rom,ram的。 : 现在这套intc的东西和早先的CPU其实不太对的上号。 : 我之前讲过,微处理器是个学神经网络的博士发明的。 : 现在估计做软件的没几个知道microCPU和CPU不是一回事了。 : 实际上你要是查表算乘法,不走通用指令集,专门出一个深学协处理器。那速度限制就 : 只在IO : 了。 : 不要笑,99乘法表类似的东西做乘法最快。 :
|
x****u 发帖数: 44466 | 11 x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化技巧
【在 G*******d 的大作中提到】 : 查表是很慢的。深度学习现在慢的不是在计算部分,“一次”计算至少要访问“三次” : 操作数(两次读,一次写)。寄存器的瓶颈压力极大。要增加寄存器数目的话,寄存器 : 访问速度会严重下降,不要说去访问L1,L2,L3 cache了。目前nvidia的所有架构都存在 : 这个问题。 : “数据搬运”是非常昂贵的,大部分功耗发生在数据搬运上面。计算单元器件可以做到 : local,但是寄存器,cache微观地看,距离计算单元较远,汇入连线的密度也不能无限 : 制增加,这是物理制程决定的。
|
g****t 发帖数: 31659 | 12 把CPU等同於x86架構是不對的。我們半導體公司一般稱之為
Micro processor。
你們可以看一下乘法的電路。
數字電路借助編碼,可以靈活運用於不同的問題域。但是如果是狹窄的領域,則不需要
數字電路也可以做實用的計算。
: x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化
技巧
【在 x****u 的大作中提到】 : x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化技巧
|
x****u 发帖数: 44466 | 13 x86是典型的通用CPU,GPU也是图灵完全的,但是一般称之为GPU不叫micro processor
什么任务做专用数字电路,什么任务用软件模拟,归根结底要看软件发展水平和硬件成本
【在 g****t 的大作中提到】 : 把CPU等同於x86架構是不對的。我們半導體公司一般稱之為 : Micro processor。 : 你們可以看一下乘法的電路。 : 數字電路借助編碼,可以靈活運用於不同的問題域。但是如果是狹窄的領域,則不需要 : 數字電路也可以做實用的計算。 : : : x86缺寄存器,把cache当寄存器用是非常变态的,引入了无数肮脏的优化 : 技巧 :
|