由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Hardware版 - GPU搞计算现在是什么情况?
相关主题
CUDA 编程应该选哪种显卡台式机配置求建议
8600GT 看1080p的问题刚刚测了下台式机的功率
攒个i5-750的机器450块钱拿的下来吗?悲催的Ivy Bridge
NVIDIA GPU vs CPU帮忙看看这个15寸电脑如何
[合集] NVIDIA GPU vs CPU3000的预算在Dell能买到什么样的workstation
配电脑,求配置 (转载)实验室要配机器,不差钱的,搞这个
这个i7超到4.0能比一千刀左右的台式机配置
求救!新买的显卡打3D游戏就黑屏死机ZZ六月上市:Nvidia Geforce GTS430/440/450参数规格泄露
相关话题的讨论汇总
话题: gpu话题: cuda话题: cpu话题: 内存话题: 计算
进入Hardware版参与讨论
1 (共1页)
m*****r
发帖数: 3822
1
A卡横行还是N卡?好像看到很多用CUDA做的
t****g
发帖数: 35582
2
搞计算还是N卡,不过支持CUDA的商用软件业没几个。所以除非自己写程序,否则都一
样。

【在 m*****r 的大作中提到】
: A卡横行还是N卡?好像看到很多用CUDA做的
c*m
发帖数: 1114
3
ATI: Streaming
NVidia: CUDA
General: OpenCL,etc...
目前CUDA领先,毕竟Nvidia当年试图转型在CUDA上投了很多时间和钱,直接导致GPU方面
后来被ATI赶超。

【在 m*****r 的大作中提到】
: A卡横行还是N卡?好像看到很多用CUDA做的
m*****r
发帖数: 3822
4
你的意思说如果自己写程序,CUDA支持更好?
AMD现在显卡不是很NB么?将来会不会统一接口?

【在 t****g 的大作中提到】
: 搞计算还是N卡,不过支持CUDA的商用软件业没几个。所以除非自己写程序,否则都一
: 样。

t****g
发帖数: 35582
5
Nvidia那也是没有办法,ATI有AMD买了,Nvidia不愿意从了Intel,在今后融合的大趋
势下,不搞点新路子,单做独立显卡基本上就是死路一条。

方面

【在 c*m 的大作中提到】
: ATI: Streaming
: NVidia: CUDA
: General: OpenCL,etc...
: 目前CUDA领先,毕竟Nvidia当年试图转型在CUDA上投了很多时间和钱,直接导致GPU方面
: 后来被ATI赶超。

x****c
发帖数: 25662
6
用CUDA还是比较多。

【在 m*****r 的大作中提到】
: 你的意思说如果自己写程序,CUDA支持更好?
: AMD现在显卡不是很NB么?将来会不会统一接口?

r******n
发帖数: 4522
7
CUDA我试着用了用,觉得最大的问题还是在内存,尽管运算单元很多,可内存就那么点
儿还是share的。所以除了并行外,还得做很多内存存取的优化,有些应用做得到,但
更多的太难甚至不可能。相比较而言,用cloud象Amazon EC2这些就容易的多,这可能
也是为什么商业上运用GPU的还是很少。
a9
发帖数: 21638
8
好像天河一号里有一堆gpu吧?

【在 r******n 的大作中提到】
: CUDA我试着用了用,觉得最大的问题还是在内存,尽管运算单元很多,可内存就那么点
: 儿还是share的。所以除了并行外,还得做很多内存存取的优化,有些应用做得到,但
: 更多的太难甚至不可能。相比较而言,用cloud象Amazon EC2这些就容易的多,这可能
: 也是为什么商业上运用GPU的还是很少。

r******n
发帖数: 4522
9
嗯,这个拿来堆纯运算能力,每秒做多少亿次1.0+1.0之类的性价比还是很高的,还省
电。实际运用就不是那么回事儿。

【在 a9 的大作中提到】
: 好像天河一号里有一堆gpu吧?
m*****r
发帖数: 3822
10
好像cuda应用还挺多,AMD网上就没看到什么。
如果自己玩还是搞N卡了?但是我又想买A卡玩游戏,最好是鼓动公款买。。

【在 r******n 的大作中提到】
: CUDA我试着用了用,觉得最大的问题还是在内存,尽管运算单元很多,可内存就那么点
: 儿还是share的。所以除了并行外,还得做很多内存存取的优化,有些应用做得到,但
: 更多的太难甚至不可能。相比较而言,用cloud象Amazon EC2这些就容易的多,这可能
: 也是为什么商业上运用GPU的还是很少。

相关主题
配电脑,求配置 (转载)台式机配置求建议
这个i7超到4.0能比刚刚测了下台式机的功率
求救!新买的显卡打3D游戏就黑屏死机悲催的Ivy Bridge
进入Hardware版参与讨论
kn
发帖数: 2446
11
你说的太对了,很多应用的瓶颈都是shared memory,每个流处理器才共享16k的shared
memory,这个卡住了很多应用,导致不少应用的并行度无法继续提高,只能眼睁睁看着
ALU白白闲置而无法使用。CUDA适合计算那种计算密集型但是访存很少的任务。
CUDA今后一定会解决这个问题。不过这个不是那么容易解决,毕竟流处理器太多了,sh
ared memory占用的面积太大。

【在 r******n 的大作中提到】
: CUDA我试着用了用,觉得最大的问题还是在内存,尽管运算单元很多,可内存就那么点
: 儿还是share的。所以除了并行外,还得做很多内存存取的优化,有些应用做得到,但
: 更多的太难甚至不可能。相比较而言,用cloud象Amazon EC2这些就容易的多,这可能
: 也是为什么商业上运用GPU的还是很少。

m*****r
发帖数: 3822
12
现在什么样的应用在GPU上效果最好?

shared
看着
sh

【在 kn 的大作中提到】
: 你说的太对了,很多应用的瓶颈都是shared memory,每个流处理器才共享16k的shared
: memory,这个卡住了很多应用,导致不少应用的并行度无法继续提高,只能眼睁睁看着
: ALU白白闲置而无法使用。CUDA适合计算那种计算密集型但是访存很少的任务。
: CUDA今后一定会解决这个问题。不过这个不是那么容易解决,毕竟流处理器太多了,sh
: ared memory占用的面积太大。

kn
发帖数: 2446
13
具体有啥商业应用不清楚,不过从research的角度看,CUDA比较适合符合下面条件的计
算:
1、并行线程之间数据依赖比较少,
2、访问一次内存,做大量计算。也就是computation/(memory access
) ratio比较大。

【在 m*****r 的大作中提到】
: 现在什么样的应用在GPU上效果最好?
:
: shared
: 看着
: sh

m*****r
发帖数: 3822
14
这个scenario和传统cluster并行效率差不多啊。现在就是gpu core之间通讯比较慢?

【在 kn 的大作中提到】
: 具体有啥商业应用不清楚,不过从research的角度看,CUDA比较适合符合下面条件的计
: 算:
: 1、并行线程之间数据依赖比较少,
: 2、访问一次内存,做大量计算。也就是computation/(memory access
: ) ratio比较大。

y**b
发帖数: 10166
15
现在cpu单核同gpu非并行相比,运算能力是在一个级别上吗?

【在 kn 的大作中提到】
: 具体有啥商业应用不清楚,不过从research的角度看,CUDA比较适合符合下面条件的计
: 算:
: 1、并行线程之间数据依赖比较少,
: 2、访问一次内存,做大量计算。也就是computation/(memory access
: ) ratio比较大。

r******n
发帖数: 4522
16
看什么级别的卡了,我在GT240上用自己的程序比较过,同样的C代码,主要是些整数运
算、排序比较,
单core,不包括从host移到GPU内存的时间,GT240上差不多用了Q6600 20倍的时间。
470/480应
该更快,但i7也比Q6600快多了。

【在 y**b 的大作中提到】
: 现在cpu单核同gpu非并行相比,运算能力是在一个级别上吗?
m*****r
发帖数: 3822
17
你是说gpu更慢?

【在 r******n 的大作中提到】
: 看什么级别的卡了,我在GT240上用自己的程序比较过,同样的C代码,主要是些整数运
: 算、排序比较,
: 单core,不包括从host移到GPU内存的时间,GT240上差不多用了Q6600 20倍的时间。
: 470/480应
: 该更快,但i7也比Q6600快多了。

k*******d
发帖数: 1340
18
因为是只用了GPU单核的缘故吧,所以GPU慢
我觉得具体应用还得看具体的算法,比如LDPC decoder就是内存用的少,计算量很大,
而且很适合并行化的,据说在GPU上快很多
a***e
发帖数: 27968
19
单核比显然CPU快啊
要不intel的年纪都活狗身上去了

【在 m*****r 的大作中提到】
: 你是说gpu更慢?
m*****r
发帖数: 3822
20
现在gpu core数目怎么算?
比如460,336 processor cores,就是336?如果单核慢十倍,理论上总体应该是快33倍?

【在 a***e 的大作中提到】
: 单核比显然CPU快啊
: 要不intel的年纪都活狗身上去了

相关主题
帮忙看看这个15寸电脑如何一千刀左右的台式机配置
3000的预算在Dell能买到什么样的workstationZZ六月上市:Nvidia Geforce GTS430/440/450参数规格泄露
实验室要配机器,不差钱的,搞这个为什么大家这么黑NV呢?
进入Hardware版参与讨论
kn
发帖数: 2446
21
core的数目就是看Stream processor的数目。
至于GPU和CPU的比较,Intel的人发了篇paper,叫做“Debunking the 100X GPU vs. C
PU Myth”。今年6月ISCA的新paper。
如果CPU上的程序用SSE指令优化和并行编程,实际speedup没有传说中那么巨大。一般说
GPU比CPU加速几十上百倍,大多是GPU厂商的市场宣传。用GPU的并行程序、特殊指令和
CPU的普通c程序相比,有失公平。

倍?

【在 m*****r 的大作中提到】
: 现在gpu core数目怎么算?
: 比如460,336 processor cores,就是336?如果单核慢十倍,理论上总体应该是快33倍?

kn
发帖数: 2446
22
实际LDPC Decoder也算是内存访问相对频繁的应用,LLR value每个iteration都需要写
回memory。
如果用通信算法来比较的话,基于trellis的MIMO detection算法比较适合用GPU实现,
每拿一批数据算很久然后才写回。加速就能很大。

【在 k*******d 的大作中提到】
: 因为是只用了GPU单核的缘故吧,所以GPU慢
: 我觉得具体应用还得看具体的算法,比如LDPC decoder就是内存用的少,计算量很大,
: 而且很适合并行化的,据说在GPU上快很多

k*******d
发帖数: 1340
23
也不能完全说是有失公平,论价格二者差不多,文章中提到
Nvidia GTX280 processor and the Intel Core i7-960 processor
CPU明显是用顶级的,GTX280比它应该便宜(460都比i7960便宜)
二者各有所长罢了
o*******r
发帖数: 131
24
同一级别的N A卡游戏差不多的,某些游戏为可能为某卡稍微优化点而已。
N卡玩游戏不见得比A卡差啊

【在 m*****r 的大作中提到】
: 好像cuda应用还挺多,AMD网上就没看到什么。
: 如果自己玩还是搞N卡了?但是我又想买A卡玩游戏,最好是鼓动公款买。。

m*****r
发帖数: 3822
25
想买新的6850啊,功耗低。为了玩玩gpu还是搞个460吧。

【在 o*******r 的大作中提到】
: 同一级别的N A卡游戏差不多的,某些游戏为可能为某卡稍微优化点而已。
: N卡玩游戏不见得比A卡差啊

k*******d
发帖数: 1340
26
哦,我没有仔细思考过,能不能放在shared memory里面?我知道有人在GPU上做了,速
度提高了20

Viterbi貌似也可以

【在 kn 的大作中提到】
: 实际LDPC Decoder也算是内存访问相对频繁的应用,LLR value每个iteration都需要写
: 回memory。
: 如果用通信算法来比较的话,基于trellis的MIMO detection算法比较适合用GPU实现,
: 每拿一批数据算很久然后才写回。加速就能很大。

k*******d
发帖数: 1340
27
哦,我没有仔细思考过,能不能放在shared memory里面?我知道有人在GPU上做了,速
度提高了20

Viterbi貌似也可以

【在 kn 的大作中提到】
: 实际LDPC Decoder也算是内存访问相对频繁的应用,LLR value每个iteration都需要写
: 回memory。
: 如果用通信算法来比较的话,基于trellis的MIMO detection算法比较适合用GPU实现,
: 每拿一批数据算很久然后才写回。加速就能很大。

kn
发帖数: 2446
28
LLR value,包括CTV和VTC的值是放在shared memory里面,但是shared memory的读写也
需要上百个cycle,非常耗时。最要命的是只有16KB/核。不考虑很长的codeword,就说
802.11n(或者WiMAX)的1944bits(2304bits)的LDPC,就至少需要存2k个channel LL
R和2k个APP value,如果都用浮点存,加起来已经16KB了。这都还没考虑各种中间变量
。所以shared memory确实是限制了这类应用,实际做的时候要用各种trick来优化内存
访问。

【在 k*******d 的大作中提到】
: 哦,我没有仔细思考过,能不能放在shared memory里面?我知道有人在GPU上做了,速
: 度提高了20
: 倍
: Viterbi貌似也可以

L***n
发帖数: 6727
29
gpu不是干这个的吧,主要还是并行浮点运算

【在 r******n 的大作中提到】
: 看什么级别的卡了,我在GT240上用自己的程序比较过,同样的C代码,主要是些整数运
: 算、排序比较,
: 单core,不包括从host移到GPU内存的时间,GT240上差不多用了Q6600 20倍的时间。
: 470/480应
: 该更快,但i7也比Q6600快多了。

L***n
发帖数: 6727
30
这篇文章很搞笑,实际上是替GPU做广告, 声称"GPU technology is *only* up to 14
times faster than theirs",靠 14倍已经够impressive了,还真非要100倍才要阿

C
般说

【在 kn 的大作中提到】
: core的数目就是看Stream processor的数目。
: 至于GPU和CPU的比较,Intel的人发了篇paper,叫做“Debunking the 100X GPU vs. C
: PU Myth”。今年6月ISCA的新paper。
: 如果CPU上的程序用SSE指令优化和并行编程,实际speedup没有传说中那么巨大。一般说
: GPU比CPU加速几十上百倍,大多是GPU厂商的市场宣传。用GPU的并行程序、特殊指令和
: CPU的普通c程序相比,有失公平。
:
: 倍?

相关主题
Which Dell for CUDA8600GT 看1080p的问题
HD5770对视频编码有专门的优化吗?攒个i5-750的机器450块钱拿的下来吗?
CUDA 编程应该选哪种显卡NVIDIA GPU vs CPU
进入Hardware版参与讨论
r******n
发帖数: 4522
31
Source是浮点的,我为了performance还有省内存先转成整数了,不管CPU还是GPU,浮
点都比整数
慢。我现在用1090T跟i7, 同时跑6-8个thread, 要是乘20也相当于120-160个GPU
thread了,
还没内存瓶颈,要想再快就用multi server, 租EC2。

【在 L***n 的大作中提到】
: gpu不是干这个的吧,主要还是并行浮点运算
L***n
发帖数: 6727
32
你是parallel computing还是distributed computing? EC2可以处理
parallel computing么? 那真倒是很有用了

【在 r******n 的大作中提到】
: Source是浮点的,我为了performance还有省内存先转成整数了,不管CPU还是GPU,浮
: 点都比整数
: 慢。我现在用1090T跟i7, 同时跑6-8个thread, 要是乘20也相当于120-160个GPU
: thread了,
: 还没内存瓶颈,要想再快就用multi server, 租EC2。

r******n
发帖数: 4522
33
我的是个用GA算法的optimizer. 每代个体的Fitness计算相互间无关联,本来最适合并
行的,可是
数据量大,CUDA就不行了。要用CUDA的话得横过来干,把数据劈成无关联的小片然后每
个core只计算
自己那一片最后host来汇总。我这个是trading system, 数据间不可能无关联。

【在 L***n 的大作中提到】
: 你是parallel computing还是distributed computing? EC2可以处理
: parallel computing么? 那真倒是很有用了

1 (共1页)
进入Hardware版参与讨论
相关主题
ZZ六月上市:Nvidia Geforce GTS430/440/450参数规格泄露[合集] NVIDIA GPU vs CPU
为什么大家这么黑NV呢?配电脑,求配置 (转载)
Which Dell for CUDA这个i7超到4.0能比
HD5770对视频编码有专门的优化吗?求救!新买的显卡打3D游戏就黑屏死机
CUDA 编程应该选哪种显卡台式机配置求建议
8600GT 看1080p的问题刚刚测了下台式机的功率
攒个i5-750的机器450块钱拿的下来吗?悲催的Ivy Bridge
NVIDIA GPU vs CPU帮忙看看这个15寸电脑如何
相关话题的讨论汇总
话题: gpu话题: cuda话题: cpu话题: 内存话题: 计算