e***e 发帖数: 3872 | 1 比较了一下CUDA FFT Lib和Intel Math Kernel的性能,计算2D FFT,single
precision float complex to complex, 硬件分别是8800GTS和P4 3.0G(w/ HT)
显存640M和内存1G,下表中时间单位为毫秒:
size: 256 * 256 512 * 512 1024 *1024 2048 * 2048
CUDA 9.093843 31.65965 96.12374 603.8209
9.508812 31.58298 96.13728 609.9658
8.999843 31.65233 96.37738 604.2612
INTEL 307.4331 1228.842 5498.506 22838.89
294.6351 1229 |
w****a 发帖数: 186 | 2 Good work and report! Mark...
【在 e***e 的大作中提到】 : 比较了一下CUDA FFT Lib和Intel Math Kernel的性能,计算2D FFT,single : precision float complex to complex, 硬件分别是8800GTS和P4 3.0G(w/ HT) : 显存640M和内存1G,下表中时间单位为毫秒: : size: 256 * 256 512 * 512 1024 *1024 2048 * 2048 : CUDA 9.093843 31.65965 96.12374 603.8209 : 9.508812 31.58298 96.13728 609.9658 : 8.999843 31.65233 96.37738 604.2612 : INTEL 307.4331 1228.842 5498.506 22838.89 : 294.6351 1229
|
g******s 发帖数: 310 | 3 cuda 算fft应该是优化好的了, cpu的版本优化不够或者内存太小? 感觉1G 内存太
少了。
【在 w****a 的大作中提到】 : Good work and report! Mark...
|
e***e 发帖数: 3872 | 4 数据量不大,内存影响应该很小,当然我要是知道机器的内存速度更好了。
CPU FFT是调的Intel Math Kernel Lib, 估计不会有更优化的库了吧(Fortran maybe
?)
【在 g******s 的大作中提到】 : cuda 算fft应该是优化好的了, cpu的版本优化不够或者内存太小? 感觉1G 内存太 : 少了。
|