GPU搞计算现在是什么情况？ - Hardware版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Hardware版 - GPU搞计算现在是什么情况？

相关主题
● CUDA 编程应该选哪种显卡	● 台式机配置求建议
● 8600GT 看1080p的问题	● 刚刚测了下台式机的功率
● 攒个i5-750的机器450块钱拿的下来吗?	● 悲催的Ivy Bridge
● NVIDIA GPU vs CPU	● 帮忙看看这个15寸电脑如何
● [合集] NVIDIA GPU vs CPU	● 3000的预算在Dell能买到什么样的workstation
● 配电脑，求配置 (转载)	● 实验室要配机器，不差钱的，搞这个
● 这个i7超到4.0能比	● 一千刀左右的台式机配置
● 求救！新买的显卡打3D游戏就黑屏死机	● ZZ六月上市：Nvidia Geforce GTS430/440/450参数规格泄露

相关话题的讨论汇总
话题: gpu话题: cuda话题: cpu话题: 内存话题: 计算

进入Hardware版参与讨论

(共1页)

m*****r
发帖数: 3822

A卡横行还是N卡？好像看到很多用CUDA做的

t****g
发帖数: 35582

搞计算还是N卡，不过支持CUDA的商用软件业没几个。所以除非自己写程序，否则都一
样。

【在 m*****r 的大作中提到】

: A卡横行还是N卡？好像看到很多用CUDA做的

c*m
发帖数: 1114

ATI: Streaming
NVidia: CUDA
General: OpenCL，etc...
目前CUDA领先，毕竟Nvidia当年试图转型在CUDA上投了很多时间和钱，直接导致GPU方面
后来被ATI赶超。

【在 m*****r 的大作中提到】

: A卡横行还是N卡？好像看到很多用CUDA做的

m*****r
发帖数: 3822

你的意思说如果自己写程序，CUDA支持更好？
AMD现在显卡不是很NB么？将来会不会统一接口？

【在 t****g 的大作中提到】

: 搞计算还是N卡，不过支持CUDA的商用软件业没几个。所以除非自己写程序，否则都一
: 样。

t****g
发帖数: 35582

Nvidia那也是没有办法，ATI有AMD买了，Nvidia不愿意从了Intel，在今后融合的大趋
势下，不搞点新路子，单做独立显卡基本上就是死路一条。

方面

【在 c*m 的大作中提到】

: ATI: Streaming
: NVidia: CUDA
: General: OpenCL，etc...
: 目前CUDA领先，毕竟Nvidia当年试图转型在CUDA上投了很多时间和钱，直接导致GPU方面
: 后来被ATI赶超。

x****c
发帖数: 25662

用CUDA还是比较多。

【在 m*****r 的大作中提到】

: 你的意思说如果自己写程序，CUDA支持更好？
: AMD现在显卡不是很NB么？将来会不会统一接口？

r******n
发帖数: 4522

CUDA我试着用了用，觉得最大的问题还是在内存，尽管运算单元很多，可内存就那么点
儿还是share的。所以除了并行外，还得做很多内存存取的优化，有些应用做得到，但
更多的太难甚至不可能。相比较而言，用cloud象Amazon EC2这些就容易的多，这可能
也是为什么商业上运用GPU的还是很少。

a9
发帖数: 21638

好像天河一号里有一堆gpu吧？

【在 r******n 的大作中提到】

: CUDA我试着用了用，觉得最大的问题还是在内存，尽管运算单元很多，可内存就那么点
: 儿还是share的。所以除了并行外，还得做很多内存存取的优化，有些应用做得到，但
: 更多的太难甚至不可能。相比较而言，用cloud象Amazon EC2这些就容易的多，这可能
: 也是为什么商业上运用GPU的还是很少。

r******n
发帖数: 4522

嗯，这个拿来堆纯运算能力，每秒做多少亿次1.0+1.0之类的性价比还是很高的，还省
电。实际运用就不是那么回事儿。

【在 a9 的大作中提到】

: 好像天河一号里有一堆gpu吧？

m*****r
发帖数: 3822

好像cuda应用还挺多，AMD网上就没看到什么。
如果自己玩还是搞N卡了？但是我又想买A卡玩游戏，最好是鼓动公款买。。

【在 r******n 的大作中提到】

相关主题
● 配电脑，求配置 (转载)	● 台式机配置求建议
● 这个i7超到4.0能比	● 刚刚测了下台式机的功率
● 求救！新买的显卡打3D游戏就黑屏死机	● 悲催的Ivy Bridge
进入Hardware版参与讨论

kn
发帖数: 2446

你说的太对了，很多应用的瓶颈都是shared memory，每个流处理器才共享16k的shared
memory，这个卡住了很多应用，导致不少应用的并行度无法继续提高，只能眼睁睁看着
ALU白白闲置而无法使用。CUDA适合计算那种计算密集型但是访存很少的任务。
CUDA今后一定会解决这个问题。不过这个不是那么容易解决，毕竟流处理器太多了，sh
ared memory占用的面积太大。

【在 r******n 的大作中提到】

m*****r
发帖数: 3822

现在什么样的应用在GPU上效果最好？

shared
看着
sh

【在 kn 的大作中提到】

: 你说的太对了，很多应用的瓶颈都是shared memory，每个流处理器才共享16k的shared
: memory，这个卡住了很多应用，导致不少应用的并行度无法继续提高，只能眼睁睁看着
: ALU白白闲置而无法使用。CUDA适合计算那种计算密集型但是访存很少的任务。
: CUDA今后一定会解决这个问题。不过这个不是那么容易解决，毕竟流处理器太多了，sh
: ared memory占用的面积太大。

kn
发帖数: 2446

具体有啥商业应用不清楚，不过从research的角度看，CUDA比较适合符合下面条件的计
算：
1、并行线程之间数据依赖比较少，
2、访问一次内存，做大量计算。也就是computation/(memory access
) ratio比较大。

【在 m*****r 的大作中提到】

: 现在什么样的应用在GPU上效果最好？
:
: shared
: 看着
: sh

m*****r
发帖数: 3822

这个scenario和传统cluster并行效率差不多啊。现在就是gpu core之间通讯比较慢？

【在 kn 的大作中提到】

: 具体有啥商业应用不清楚，不过从research的角度看，CUDA比较适合符合下面条件的计
: 算：
: 1、并行线程之间数据依赖比较少，
: 2、访问一次内存，做大量计算。也就是computation/(memory access
: ) ratio比较大。

y**b
发帖数: 10166

现在cpu单核同gpu非并行相比，运算能力是在一个级别上吗？

【在 kn 的大作中提到】

r******n
发帖数: 4522

看什么级别的卡了，我在GT240上用自己的程序比较过，同样的C代码，主要是些整数运
算、排序比较，
单core，不包括从host移到GPU内存的时间，GT240上差不多用了Q6600 20倍的时间。
470/480应
该更快，但i7也比Q6600快多了。

【在 y**b 的大作中提到】

: 现在cpu单核同gpu非并行相比，运算能力是在一个级别上吗？

m*****r
发帖数: 3822

你是说gpu更慢？

【在 r******n 的大作中提到】

: 看什么级别的卡了，我在GT240上用自己的程序比较过，同样的C代码，主要是些整数运
: 算、排序比较，
: 单core，不包括从host移到GPU内存的时间，GT240上差不多用了Q6600 20倍的时间。
: 470/480应
: 该更快，但i7也比Q6600快多了。

k*******d
发帖数: 1340

因为是只用了GPU单核的缘故吧，所以GPU慢
我觉得具体应用还得看具体的算法，比如LDPC decoder就是内存用的少，计算量很大，
而且很适合并行化的，据说在GPU上快很多

a***e
发帖数: 27968

单核比显然CPU快啊
要不intel的年纪都活狗身上去了

【在 m*****r 的大作中提到】

: 你是说gpu更慢？

m*****r
发帖数: 3822

现在gpu core数目怎么算？
比如460,336 processor cores，就是336?如果单核慢十倍，理论上总体应该是快33倍？

【在 a***e 的大作中提到】

: 单核比显然CPU快啊
: 要不intel的年纪都活狗身上去了

相关主题
● 帮忙看看这个15寸电脑如何	● 一千刀左右的台式机配置
● 3000的预算在Dell能买到什么样的workstation	● ZZ六月上市：Nvidia Geforce GTS430/440/450参数规格泄露
● 实验室要配机器，不差钱的，搞这个	● 为什么大家这么黑NV呢？
进入Hardware版参与讨论

kn
发帖数: 2446

core的数目就是看Stream processor的数目。
至于GPU和CPU的比较，Intel的人发了篇paper，叫做“Debunking the 100X GPU vs. C
PU Myth”。今年6月ISCA的新paper。
如果CPU上的程序用SSE指令优化和并行编程，实际speedup没有传说中那么巨大。一般说
GPU比CPU加速几十上百倍，大多是GPU厂商的市场宣传。用GPU的并行程序、特殊指令和
CPU的普通c程序相比，有失公平。

倍？

【在 m*****r 的大作中提到】

: 现在gpu core数目怎么算？
: 比如460,336 processor cores，就是336?如果单核慢十倍，理论上总体应该是快33倍？

kn
发帖数: 2446

实际LDPC Decoder也算是内存访问相对频繁的应用，LLR value每个iteration都需要写
回memory。
如果用通信算法来比较的话，基于trellis的MIMO detection算法比较适合用GPU实现，
每拿一批数据算很久然后才写回。加速就能很大。

【在 k*******d 的大作中提到】

: 因为是只用了GPU单核的缘故吧，所以GPU慢
: 我觉得具体应用还得看具体的算法，比如LDPC decoder就是内存用的少，计算量很大，
: 而且很适合并行化的，据说在GPU上快很多

k*******d
发帖数: 1340

也不能完全说是有失公平，论价格二者差不多，文章中提到
Nvidia GTX280 processor and the Intel Core i7-960 processor
CPU明显是用顶级的，GTX280比它应该便宜（460都比i7960便宜）
二者各有所长罢了

o*******r
发帖数: 131

同一级别的N A卡游戏差不多的，某些游戏为可能为某卡稍微优化点而已。
N卡玩游戏不见得比A卡差啊

【在 m*****r 的大作中提到】

: 好像cuda应用还挺多，AMD网上就没看到什么。
: 如果自己玩还是搞N卡了？但是我又想买A卡玩游戏，最好是鼓动公款买。。

m*****r
发帖数: 3822

想买新的6850啊，功耗低。为了玩玩gpu还是搞个460吧。

【在 o*******r 的大作中提到】

: 同一级别的N A卡游戏差不多的，某些游戏为可能为某卡稍微优化点而已。
: N卡玩游戏不见得比A卡差啊

k*******d
发帖数: 1340

哦，我没有仔细思考过，能不能放在shared memory里面？我知道有人在GPU上做了，速
度提高了20
倍
Viterbi貌似也可以

【在 kn 的大作中提到】

: 实际LDPC Decoder也算是内存访问相对频繁的应用，LLR value每个iteration都需要写
: 回memory。
: 如果用通信算法来比较的话，基于trellis的MIMO detection算法比较适合用GPU实现，
: 每拿一批数据算很久然后才写回。加速就能很大。

k*******d
发帖数: 1340

哦，我没有仔细思考过，能不能放在shared memory里面？我知道有人在GPU上做了，速
度提高了20
倍
Viterbi貌似也可以

【在 kn 的大作中提到】

kn
发帖数: 2446

LLR value，包括CTV和VTC的值是放在shared memory里面，但是shared memory的读写也
需要上百个cycle，非常耗时。最要命的是只有16KB/核。不考虑很长的codeword，就说
802.11n（或者WiMAX）的1944bits（2304bits）的LDPC，就至少需要存2k个channel LL
R和2k个APP value，如果都用浮点存，加起来已经16KB了。这都还没考虑各种中间变量
。所以shared memory确实是限制了这类应用，实际做的时候要用各种trick来优化内存
访问。

【在 k*******d 的大作中提到】

: 哦，我没有仔细思考过，能不能放在shared memory里面？我知道有人在GPU上做了，速
: 度提高了20
: 倍
: Viterbi貌似也可以

L***n
发帖数: 6727

gpu不是干这个的吧,主要还是并行浮点运算

【在 r******n 的大作中提到】

L***n
发帖数: 6727

这篇文章很搞笑,实际上是替GPU做广告, 声称"GPU technology is *only* up to 14
times faster than theirs",靠 14倍已经够impressive了,还真非要100倍才要阿

C
般说

【在 kn 的大作中提到】

: core的数目就是看Stream processor的数目。
: 至于GPU和CPU的比较，Intel的人发了篇paper，叫做“Debunking the 100X GPU vs. C
: PU Myth”。今年6月ISCA的新paper。
: 如果CPU上的程序用SSE指令优化和并行编程，实际speedup没有传说中那么巨大。一般说
: GPU比CPU加速几十上百倍，大多是GPU厂商的市场宣传。用GPU的并行程序、特殊指令和
: CPU的普通c程序相比，有失公平。
:
: 倍？

相关主题
● Which Dell for CUDA	● 8600GT 看1080p的问题
● HD5770对视频编码有专门的优化吗?	● 攒个i5-750的机器450块钱拿的下来吗?
● CUDA 编程应该选哪种显卡	● NVIDIA GPU vs CPU
进入Hardware版参与讨论

r******n
发帖数: 4522

Source是浮点的，我为了performance还有省内存先转成整数了，不管CPU还是GPU，浮
点都比整数
慢。我现在用1090T跟i7, 同时跑6-8个thread, 要是乘20也相当于120-160个GPU
thread了，
还没内存瓶颈，要想再快就用multi server, 租EC2。

【在 L***n 的大作中提到】

: gpu不是干这个的吧,主要还是并行浮点运算

L***n
发帖数: 6727

你是parallel computing还是distributed computing? EC2可以处理
parallel computing么? 那真倒是很有用了

【在 r******n 的大作中提到】

: Source是浮点的，我为了performance还有省内存先转成整数了，不管CPU还是GPU，浮
: 点都比整数
: 慢。我现在用1090T跟i7, 同时跑6-8个thread, 要是乘20也相当于120-160个GPU
: thread了，
: 还没内存瓶颈，要想再快就用multi server, 租EC2。

r******n
发帖数: 4522

我的是个用GA算法的optimizer. 每代个体的Fitness计算相互间无关联，本来最适合并
行的，可是
数据量大，CUDA就不行了。要用CUDA的话得横过来干，把数据劈成无关联的小片然后每
个core只计算
自己那一片最后host来汇总。我这个是trading system, 数据间不可能无关联。

【在 L***n 的大作中提到】

: 你是parallel computing还是distributed computing? EC2可以处理
: parallel computing么? 那真倒是很有用了

(共1页)

进入Hardware版参与讨论

相关主题
● ZZ六月上市：Nvidia Geforce GTS430/440/450参数规格泄露	● [合集] NVIDIA GPU vs CPU
● 为什么大家这么黑NV呢？	● 配电脑，求配置 (转载)
● Which Dell for CUDA	● 这个i7超到4.0能比
● HD5770对视频编码有专门的优化吗?	● 求救！新买的显卡打3D游戏就黑屏死机
● CUDA 编程应该选哪种显卡	● 台式机配置求建议
● 8600GT 看1080p的问题	● 刚刚测了下台式机的功率
● 攒个i5-750的机器450块钱拿的下来吗?	● 悲催的Ivy Bridge
● NVIDIA GPU vs CPU	● 帮忙看看这个15寸电脑如何

相关话题的讨论汇总
话题: gpu话题: cuda话题: cpu话题: 内存话题: 计算

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天