GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧

相关主题
● 妈的怎么那么多鸡毛语言/软件	● nv的显卡能战胜intel的CPU么
● 想写一个machine learning的平台	● 没人讨论这个？
● 学习C++是浪费你的生命	● 并行可以降低计算复杂度？？
● Yarn的设计根本就是错的	● tensorflow serving
● chip信用卡为什么等那么久 (转载)	● 可以简单粗暴的矩阵化的程序，都会被...
● 请问程序同时在多个cpu上运行需要怎么改程序？	● ubuntu apt-get 404了
● 谈谈想学好底层必不可少的东西	● 芯片應該為軟件服務，譬如硬件加速的虛擬內存MMU、虛擬GPU、虛
● 写给对系统感兴趣的人	● Clock() problem

相关话题的讨论汇总
话题: gpu话题: 数据话题: intensive话题: cpu话题: vram

进入Programming版参与讨论

1

(共1页)

s*****n 发帖数: 5488	1 假设是location 相关数据，数据可以放到内存，新数据可以通过加server扩容，数据通过mongoDB这种东东存到硬盘上。
m********5 发帖数: 17667	2 你这个简直就是非要用黄金当车轴, 性能要求不match GPU不适合做data intensive computing, 光数据上下载就比只用CPU慢多了. 我做过一个项目是data intensive的, 但是它是个特例, 就是数据是稀疏的,可以用很大压缩率上载给VRAM, 然后再用GPU解压出来算. 做data intensive的人最好看看out of core的概念, 其实CPU消耗根本很低,主要时间在I/O上【在 s*****n 的大作中提到】 : 假设是location 相关数据，数据可以放到内存，新数据可以通过加server扩容， : 数据通过mongoDB这种东东存到硬盘上。
s*****n 发帖数: 5488	3 理论上GPU带宽更加宽，而且数据都在内存里面，几乎没有I/O。计算都是简单hash, scan, combine， join. 有500多个核的GPU至少应该有50倍的性能提高。
m********5 发帖数: 17667	4 你实际用用就知道了从system RAM上载到VRAM效率是很低很低的如果你所有数据都能一次性load到VRAM不算data intensive 【在 s*****n 的大作中提到】 : 理论上GPU带宽更加宽，而且数据都在内存里面，几乎没有I/O。计算都是简单hash, : scan, combine， join. 有500多个核的GPU至少应该有50倍的性能提高。
N*****m 发帖数: 42603	5 那是指GPU内部带宽，系统内存到GPU太慢了，而且GPU的内存也满足不了data intensiv e的应用。 GPU适合computation intensive的应用。【在 s*****n 的大作中提到】 : 理论上GPU带宽更加宽，而且数据都在内存里面，几乎没有I/O。计算都是简单hash, : scan, combine， join. 有500多个核的GPU至少应该有50倍的性能提高。
I******c 发帖数: 163	6 多大的数据才算data intensive? 现在gpu的global memory有5，6G了。另外，数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使你需要传几次数据，传输的时间也是可以被计算的时间tolerated的。【在 m********5 的大作中提到】 : 你实际用用就知道了 : 从system RAM上载到VRAM效率是很低很低的 : 如果你所有数据都能一次性load到VRAM不算data intensive
I******c 发帖数: 163	7 最近两年ipdps上有几篇关于在gpu上实现mapreduce的文章。你可以看看。实用不实用就不知道了。【在 s*****n 的大作中提到】 : 假设是location 相关数据，数据可以放到内存，新数据可以通过加server扩容， : 数据通过mongoDB这种东东存到硬盘上。
I******c 发帖数: 163	8 GPU上跑程序得到的speedup有时候取决于gpu内存的带宽。现在gpu内存的带宽虽然比 cpu的快，但是有没有快50倍？另外，我个人理解gpu的带宽是指在最佳情况下，比如说所有内存的读写都是coalesce了，这个在实际中并不是都可以实现。【在 s*****n 的大作中提到】 : 理论上GPU带宽更加宽，而且数据都在内存里面，几乎没有I/O。计算都是简单hash, : scan, combine， join. 有500多个核的GPU至少应该有50倍的性能提高。
N*****m 发帖数: 42603	9 5,6GB太小了，现在laptop都8G起步了【在 I******c 的大作中提到】 : 多大的数据才算data intensive? 现在gpu的global memory有5，6G了。 : 另外，数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使 : 你需要传几次数据，传输的时间也是可以被计算的时间tolerated的。
s*****n 发帖数: 5488	10 我也是从 mapreduce看过来的。具体的慢慢研究吧。【在 I******c 的大作中提到】 : 最近两年ipdps上有几篇关于在gpu上实现mapreduce的文章。你可以看看。实用不实用 : 就不知道了。
s*****n 发帖数: 5488	11 数据还没搞，大概是10-15G,基本都是静态的，会有一个field 刷新。然后来一个很小的数据开始做matching或者shortest path运算。最后combine. 【在 I******c 的大作中提到】 : 多大的数据才算data intensive? 现在gpu的global memory有5，6G了。 : 另外，数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使 : 你需要传几次数据，传输的时间也是可以被计算的时间tolerated的。
g*****g 发帖数: 34805	12 这个算啥data intensive? 这个级别，内存里建索引，CPU计算足够了。【在 s*****n 的大作中提到】 : 数据还没搞，大概是10-15G,基本都是静态的，会有一个field 刷新。 : 然后来一个很小的数据开始做matching或者shortest path运算。 : 最后combine.
m********5 发帖数: 17667	13 按经验, 大小0.1TB起算 data feeding速度超过100MB/s 一次性需要操作大于内存容量的数据, 比如想在一般的PC上对几十个GB的矩阵进行操作 . 如果传输时间远低于计算时间,那么我认为是典型 computing intensive, 用GPU问题不大. 这个楼主完全可以用CPU测一下. 但看起来楼主说的计算复杂度似乎不高, 感觉GPU 提升有限, 浪费精力不划算. 即使是8GB-VRAM,只有10GB静态数据,如果不能一次性传入 VRAM, 又需要random access, 上下载是会很频繁的. 得不偿失. 如果楼主的数据可以用random access性能较好的压缩算法来进行大比例压缩, 可以去偿试一下. GPU和 VRAM之间的带宽只有在数据能全部upload到VRAM, 或者可顺序读写的时候才能体现优势. 另外楼主认为所有数据包括中间数据储存在内存(用CPU计算)就没有I/O或者I/O的时间消耗就可忽略不计也是错误的, 如果是这样我们就不用讨论FFT的算法优化, 当然楼主的case应该不是这种. 关于GPU有很多学术文章已经发过了, 一直很热, 版上的讨论不知道为何总是那么奇怪, 与其在这里瞎放炮, 不如多看几篇文献. GPU数据上下载是最大瓶颈, 这个是定论的. 【在 I******c 的大作中提到】 : 多大的数据才算data intensive? 现在gpu的global memory有5，6G了。 : 另外，数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使 : 你需要传几次数据，传输的时间也是可以被计算的时间tolerated的。
r******n 发帖数: 4522	14 我本来也想用GPU做些数据分析、优化，后来还是放弃了。数据倒进倒出的太浪费时间。觉得只适合小数据，或者即使大量数据，但无关联可以分割。GPU板上的内存速度是很快，但size实在太小。现在CPU也能搞很多core，我最后就是弄了两片xeon, 16core, 32thread跑。

1

(共1页)

进入Programming版参与讨论

相关主题
● Clock() problem	● chip信用卡为什么等那么久 (转载)
● 问一道算法题	● 请问程序同时在多个cpu上运行需要怎么改程序？
● java的内存管理真是气死我了	● 谈谈想学好底层必不可少的东西
● LabVIEW问题：对高手来说很简单！	● 写给对系统感兴趣的人
● 妈的怎么那么多鸡毛语言/软件	● nv的显卡能战胜intel的CPU么
● 想写一个machine learning的平台	● 没人讨论这个？
● 学习C++是浪费你的生命	● 并行可以降低计算复杂度？？
● Yarn的设计根本就是错的	● tensorflow serving

相关话题的讨论汇总
话题: gpu话题: 数据话题: intensive话题: cpu话题: vram

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)