w*****r 发帖数: 197 | 1 tf是static graph,显然对并行优化提供了更多的信息和可能性。
之前看过一个比较,在几个常见模型上,pytorch居然比tf还要稍快一点。 |
g*******u 发帖数: 3948 | |
l*******m 发帖数: 1096 | 3 因为pytorch的理念就是直接用cudnn。狗家自己认为牛逼,总是自己写,然后发现比
cudnn慢个一倍,再写一个用cudnn的,但就有了几个API, 选对了才快。但自己写的一
般先推出,所以快的反而一般人不知道
:tf是static graph,显然对并行优化提供了更多的信息和可能性。
: |
w***g 发帖数: 5958 | 4 靠,那哪个API是cudnn的? 这几天又跟tf slim做了好一番斗争。似乎终于弄对了。
【在 l*******m 的大作中提到】 : 因为pytorch的理念就是直接用cudnn。狗家自己认为牛逼,总是自己写,然后发现比 : cudnn慢个一倍,再写一个用cudnn的,但就有了几个API, 选对了才快。但自己写的一 : 般先推出,所以快的反而一般人不知道 : : :tf是static graph,显然对并行优化提供了更多的信息和可能性。 : :
|
l*******m 发帖数: 1096 | 5 估计你也知道:
fused_batch_norm
TF_ENABLE_FFT_TILING_FORWARD=1
cudnn_rnn
nccl_sum for NVLink systems
【在 w***g 的大作中提到】 : 靠,那哪个API是cudnn的? 这几天又跟tf slim做了好一番斗争。似乎终于弄对了。
|