由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
相关主题
妈的怎么那么多鸡毛语言/软件nv的显卡能战胜intel的CPU么
想写一个machine learning的平台没人讨论这个?
学习C++是浪费你的生命并行可以降低计算复杂度??
Yarn的设计根本就是错的tensorflow serving
chip信用卡为什么等那么久 (转载)可以简单粗暴的矩阵化的程序,都会被...
请问程序同时在多个cpu上运行需要怎么改程序?ubuntu apt-get 404了
谈谈想学好底层必不可少的东西芯片應該為軟件服務,譬如硬件加速的虛擬內存MMU、虛擬GPU、虛
写给对系统感兴趣的人Clock() problem
相关话题的讨论汇总
话题: gpu话题: 数据话题: intensive话题: cpu话题: vram
进入Programming版参与讨论
1 (共1页)
s*****n
发帖数: 5488
1
假设是location 相关数据,数据可以放到内存,新数据可以通过加server扩容,
数据通过mongoDB这种东东存到硬盘上。
m********5
发帖数: 17667
2
你这个简直就是非要用黄金当车轴, 性能要求不match
GPU不适合做data intensive computing, 光数据上下载就比只用CPU慢多了.
我做过一个项目是data intensive的, 但是它是个特例, 就是数据是稀疏的,可以用很
大压缩率上载给VRAM, 然后再用GPU解压出来算.
做data intensive的人最好看看out of core的概念, 其实CPU消耗根本很低,主要时间
在I/O上

【在 s*****n 的大作中提到】
: 假设是location 相关数据,数据可以放到内存,新数据可以通过加server扩容,
: 数据通过mongoDB这种东东存到硬盘上。

s*****n
发帖数: 5488
3
理论上GPU带宽更加宽,而且数据都在内存里面,几乎没有I/O。计算都是简单hash,
scan, combine, join. 有500多个核的GPU至少应该有50倍的性能提高。
m********5
发帖数: 17667
4
你实际用用就知道了
从system RAM上载到VRAM效率是很低很低的
如果你所有数据都能一次性load到VRAM不算data intensive

【在 s*****n 的大作中提到】
: 理论上GPU带宽更加宽,而且数据都在内存里面,几乎没有I/O。计算都是简单hash,
: scan, combine, join. 有500多个核的GPU至少应该有50倍的性能提高。

N*****m
发帖数: 42603
5
那是指GPU内部带宽,系统内存到GPU太慢了,而且GPU的内存也满足不了data intensiv
e的应用。
GPU适合computation intensive的应用。

【在 s*****n 的大作中提到】
: 理论上GPU带宽更加宽,而且数据都在内存里面,几乎没有I/O。计算都是简单hash,
: scan, combine, join. 有500多个核的GPU至少应该有50倍的性能提高。

I******c
发帖数: 163
6
多大的数据才算data intensive? 现在gpu的global memory有5,6G了。
另外,数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使
你需要传几次数据,传输的时间也是可以被计算的时间tolerated的。

【在 m********5 的大作中提到】
: 你实际用用就知道了
: 从system RAM上载到VRAM效率是很低很低的
: 如果你所有数据都能一次性load到VRAM不算data intensive

I******c
发帖数: 163
7
最近两年ipdps上有几篇关于在gpu上实现mapreduce的文章。你可以看看。实用不实用
就不知道了。

【在 s*****n 的大作中提到】
: 假设是location 相关数据,数据可以放到内存,新数据可以通过加server扩容,
: 数据通过mongoDB这种东东存到硬盘上。

I******c
发帖数: 163
8
GPU上跑程序得到的speedup有时候取决于gpu内存的带宽。现在gpu内存的带宽虽然比
cpu的快,但是有没有快50倍? 另外,我个人理解gpu的带宽是指在最佳情况下,比如
说所有内存的读写都是coalesce了,这个在实际中并不是都可以实现。

【在 s*****n 的大作中提到】
: 理论上GPU带宽更加宽,而且数据都在内存里面,几乎没有I/O。计算都是简单hash,
: scan, combine, join. 有500多个核的GPU至少应该有50倍的性能提高。

N*****m
发帖数: 42603
9
5,6GB太小了,现在laptop都8G起步了

【在 I******c 的大作中提到】
: 多大的数据才算data intensive? 现在gpu的global memory有5,6G了。
: 另外,数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使
: 你需要传几次数据,传输的时间也是可以被计算的时间tolerated的。

s*****n
发帖数: 5488
10
我也是从 mapreduce看过来的。具体的慢慢研究吧。

【在 I******c 的大作中提到】
: 最近两年ipdps上有几篇关于在gpu上实现mapreduce的文章。你可以看看。实用不实用
: 就不知道了。

s*****n
发帖数: 5488
11
数据还没搞,大概是10-15G,基本都是静态的,会有一个field 刷新。
然后来一个很小的数据开始做matching或者shortest path运算。
最后combine.

【在 I******c 的大作中提到】
: 多大的数据才算data intensive? 现在gpu的global memory有5,6G了。
: 另外,数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使
: 你需要传几次数据,传输的时间也是可以被计算的时间tolerated的。

g*****g
发帖数: 34805
12
这个算啥data intensive? 这个级别,内存里建索引,CPU计算足够了。

【在 s*****n 的大作中提到】
: 数据还没搞,大概是10-15G,基本都是静态的,会有一个field 刷新。
: 然后来一个很小的数据开始做matching或者shortest path运算。
: 最后combine.

m********5
发帖数: 17667
13
按经验, 大小0.1TB起算
data feeding速度超过100MB/s
一次性需要操作大于内存容量的数据, 比如想在一般的PC上对几十个GB的矩阵进行操作
.
如果传输时间远低于计算时间,那么我认为是典型 computing intensive, 用GPU问题不
大. 这个楼主完全可以用CPU测一下. 但看起来楼主说的计算复杂度似乎不高, 感觉GPU
提升有限, 浪费精力不划算. 即使是8GB-VRAM,只有10GB静态数据,如果不能一次性传入
VRAM, 又需要random access, 上下载是会很频繁的. 得不偿失. 如果楼主的数据可
以用random access性能较好的压缩算法来进行大比例压缩, 可以去偿试一下. GPU和
VRAM之间的带宽只有在数据
能全部upload到VRAM, 或者可顺序读写的时候才能体现优势. 另外楼主认为所有数据包
括中间数据储存在内存(用CPU计算)就没有I/O或者I/O的时间消耗就可忽略不计也是错
误的, 如果是这样我们就不用讨论FFT的算法优化, 当然楼主的case应该不是这种.
关于GPU有很多学术文章已经发过了, 一直很热, 版上的讨论不知道为何总是那么奇怪,
与其在这里瞎放炮, 不如多看几篇文献. GPU数据上下载是最大瓶颈, 这个是定论的.

【在 I******c 的大作中提到】
: 多大的数据才算data intensive? 现在gpu的global memory有5,6G了。
: 另外,数据从cpu主存到gpu global memory的传输是和gpu本身的计算是并行的。即使
: 你需要传几次数据,传输的时间也是可以被计算的时间tolerated的。

r******n
发帖数: 4522
14
我本来也想用GPU做些数据分析、优化,后来还是放弃了。数据倒进倒出的太浪费时间
。觉得只适合小数据,或者即使大量数据,但无关联可以分割。GPU板上的内存速度是
很快,但size实在太小。现在CPU也能搞很多core,我最后就是弄了两片xeon, 16core,
32thread跑。
1 (共1页)
进入Programming版参与讨论
相关主题
Clock() problemchip信用卡为什么等那么久 (转载)
问一道算法题请问程序同时在多个cpu上运行需要怎么改程序?
java的内存管理真是气死我了谈谈想学好底层必不可少的东西
LabVIEW问题:对高手来说很简单!写给对系统感兴趣的人
妈的怎么那么多鸡毛语言/软件nv的显卡能战胜intel的CPU么
想写一个machine learning的平台没人讨论这个?
学习C++是浪费你的生命并行可以降低计算复杂度??
Yarn的设计根本就是错的tensorflow serving
相关话题的讨论汇总
话题: gpu话题: 数据话题: intensive话题: cpu话题: vram