N******K 发帖数: 10202 | 1 nv就是拿一堆低端的核 堆gup 类似全堆程序员 |
w***g 发帖数: 5958 | 2 对应的是xeon phi。 不过我觉得都没有未来。
【在 N******K 的大作中提到】 : nv就是拿一堆低端的核 堆gup 类似全堆程序员
|
c*******9 发帖数: 9032 | 3 Nv arm cpu加显卡有希望。
【在 N******K 的大作中提到】 : nv就是拿一堆低端的核 堆gup 类似全堆程序员
|
c*******9 发帖数: 9032 | 4 Nv arm cpu加显卡有希望。
【在 N******K 的大作中提到】 : nv就是拿一堆低端的核 堆gup 类似全堆程序员
|
m********5 发帖数: 17667 | 5 有不是所有东西都能并行
【在 N******K 的大作中提到】 : nv就是拿一堆低端的核 堆gup 类似全堆程序员
|
d********f 发帖数: 43471 | 6 intel必败,intel就和5年前的微软一样,一个jb compiler都要靠人去论坛上问来问去
,nvidia拥有大批专业人员免费研发算法。你要是常去听这两家的培训就知道了,intel
来的全市三哥。ppt全市三哥风格的,在硬件领域三哥是绝对没有市场的
【在 N******K 的大作中提到】 : nv就是拿一堆低端的核 堆gup 类似全堆程序员
|
N******K 发帖数: 10202 | 7 nvidia拥有大批专业人员免费研发算法 类似c++标准库的gpu版本 为何至今没有
intel
【在 d********f 的大作中提到】 : intel必败,intel就和5年前的微软一样,一个jb compiler都要靠人去论坛上问来问去 : ,nvidia拥有大批专业人员免费研发算法。你要是常去听这两家的培训就知道了,intel : 来的全市三哥。ppt全市三哥风格的,在硬件领域三哥是绝对没有市场的
|
n*****t 发帖数: 22014 | 8 以后 libc 都 gpu 化,一个核专门 strcmp,另一个负责 qsort
【在 N******K 的大作中提到】 : nv就是拿一堆低端的核 堆gup 类似全堆程序员
|
g*********e 发帖数: 14401 | 9 那有啥用?有本事十个核同时搞一个qsort
【在 n*****t 的大作中提到】 : 以后 libc 都 gpu 化,一个核专门 strcmp,另一个负责 qsort
|
c*******9 发帖数: 9032 | 10 Haskell 有两个
【在 N******K 的大作中提到】 : nvidia拥有大批专业人员免费研发算法 类似c++标准库的gpu版本 为何至今没有 : : intel
|
|
|
c*******9 发帖数: 9032 | 11 Haskell 有两个
【在 N******K 的大作中提到】 : nvidia拥有大批专业人员免费研发算法 类似c++标准库的gpu版本 为何至今没有 : : intel
|
w***g 发帖数: 5958 | 12 gcc parallel mode,STL里不少算法都有,不过只能对CPU并行化。
【在 g*********e 的大作中提到】 : 那有啥用?有本事十个核同时搞一个qsort
|
d********f 发帖数: 43471 | 13 作hpc的谁需要stl?这东西有什么用?blas/lapack,fft这些早就有了
【在 N******K 的大作中提到】 : nvidia拥有大批专业人员免费研发算法 类似c++标准库的gpu版本 为何至今没有 : : intel
|
N******K 发帖数: 10202 | 14 blas/lapack,fft 就是所有算法了?
最近搞几个新的图像分析算法 c++的 thread很好用 包装成并行for 不用openmp
【在 d********f 的大作中提到】 : 作hpc的谁需要stl?这东西有什么用?blas/lapack,fft这些早就有了
|
g*****y 发帖数: 7271 | 15 比openmp有什么好处?更快么?
【在 N******K 的大作中提到】 : blas/lapack,fft 就是所有算法了? : 最近搞几个新的图像分析算法 c++的 thread很好用 包装成并行for 不用openmp
|
c****p 发帖数: 6474 | 16 数据密集的程序可能GPU好一点。
控制(分支)密集的程序应该还是CPU牛一点,因为这种情况下GPU的并行运算能力没办
法发挥,而单个/少量处理单元的能力不如CPU。
GPU对于分支较多的程序的一个在将来可能的做法是每遇到决策树的节点时就把运算能
力分成两份分别执行两个分支,等决策结果出来的时候把错误的那一支剪掉。如果指令
窗口很大的话,分支的层数就会很多。能分支的最多层数应该由指令窗口的大小和分支
指令的概率决定。
进一步的优化是根据分支预测器的taken/not-taken history的比例划分运算能力。 |
N******K 发帖数: 10202 | 17 openmp有版本兼容问题
c++11 thread是标准库的
各个线程资源控制 数据共享 都可以自己搞
【在 g*****y 的大作中提到】 : 比openmp有什么好处?更快么?
|