关于simd的讨论汇总 - 话题女王

x********u
发帖数: 1061

来自主题: JobHunting版 - SIMD和SSE的区别

SIMD是一个概念，你在龙芯里面也可以SIMD，但是SSE是一种实现SIMD的指令集，只有
x86才能用

c********n
发帖数: 3

Simplescalar v3.0d只支持alpha/PISA,好象没有SIMD
instructions(虽然据说支持alpha的MVI,可MVI连SIMD的arithmatic
instruction都没有,算不上真正意义上的SIMD般extension.)
哪位兄弟有这方面的经验来教教咱? 有什么好的simulator/compiler(or precompiled
benchmarks) tool set?
//bow

B*******1
发帖数: 2454

来自主题: JobHunting版 - SIMD和SSE的区别

sse是simd的一种

★ 发自iPhone App: ChineseWeb 1.0.2

r*********9
发帖数: 21

来自主题: JobHunting版 - SIMD和SSE的区别

水果家电面，给的题要求用SIMD，我用SSE实现可以么？我只在x86上做过。从来没在其
他的芯片上实现过。

z********t
发帖数: 5

来自主题: CS版 - 多SIMD架构的编译器？

我现在一直在做多SIMD架构（基于共享存储）的COMPILER,但是可惜国内气氛不是非常
好，做COMPILER的比较少，考虑读完研究生之后想去美国求学，我想请问大家，美国的
学校里面做COMPILER（可以理解为面向高性能计算的编译技术）做的好的有哪些？

f********1
发帖数: 24

来自主题: JobHunting版 - 帮看一道优化的电面题

最近电面的R&D部门的一道题目。题目很简单。和大牛们讨论下。
optimize the following code to speedup.
for(i=0;i a[i] += c*b[i];
电面的人说有好些优化的办法，比如SIMD。
SIMD不懂，其他的优化也没有想到。大牛们说下用SIMD怎么优化，其它优化办法呢？

j********x
发帖数: 2330

来自主题: JobHunting版 - 现在为什么没有人去Apple了？

刚还知道自己是索男
换2贴就忘了。。。
加了simd
给你你知道simd加什么指令能改善用户体验么？
指令集功耗运行效率
这种东西是一个simd能囊括的么？
我看你不是索男
索男第一标准是事实求是
你就是一混子。。。

t*******r
发帖数: 22634

来自主题: Parenting版 - 美国的数学教得杂但是太浅

或者这么说，以前那破 286，啥事都在 CPU 里面全干了。。。后来人们
发现这么搞速度上不去，于是搞了最先进的 Core2Duo Quad Core，里面
四个 core 并行，四条超级标量流水钱，N 个内置 FPU 浮点协处理单元，
外加 L1 / L2 / L3 高速缓存，还带 SIMD 向量计算指令。。。结果
有人跑过来，只看见 FPU，说你特么这 FPU 浮点协处理单元怎么
这么弱，除了算浮点数其他啥都不会干。但人家有 CPU，还有四个，
没看见？。。。另一人跑过来说，只看见 SIMD 指令，说你特么SIMD
向量指令为啥要 8 个数一起算，这么死板。但人家不是没有普通
标量指令是不是？。。。还有一个人跑过来，只看见 L1 / L2 / L3
缓存，说你特么这先进芯片是不是弱智，就只能暂时保存一下数据。
我都不说啥了。。。

。

a****a
发帖数: 5763

来自主题: Apple版 - tegra 3的短板是显卡，太讽刺了

http://www.anandtech.com/show/5072/nvidias-tegra-3-launched-arc
Mobile SoC GPU Comparison
Adreno 225 PowerVR SGX 540 PowerVR SGX 543
PowerVR SGX 543MP2 Mali-400 MP4 GeForce ULP Kal-El GeForce
SIMD Name - USSE USSE2 USSE2 Core Core Core
# of SIMDs 8 4 4 8 4 + 1 8 12
MADs per SIMD 4 2 4 4 4 / 2 1 1
Total MADs 32 8 16 32 18 8 ... 阅读全帖

J*******3
发帖数: 1651

来自主题: Hardware版 - Sandy Bridge展望

Sandy Bridge展望
泡泡网笔记本频道1月11日 2011年1月6日注定是个不平凡的日子，在这一天全球最
大的电子消费大展CES 2011在美国赌城拉斯维加斯拉开序幕，去年从头火到尾的苹果也
选择在这一天推出Mac App Store在线商店，而让这一天更加不平凡的便是Intel推出全
新的Sandy Bridge平台，必将引领2011年硬件、笔记本、台式机等领域的重大变革。
浮云还是板砖 Sandy Bridge能飞多久?
Click Here
如果说Intel推出的平台是产业的“领导者”和“定义者”，那么一定会有某些竞
争对手反驳，同时他们也正将此转化为行动，维持住一定市场份额，Sandy Bridge的诞
生虽得到热捧但也受到了一定程度的阻击，该如何面对强劲对手，该如何踏平2011年，
它还有许多路要走，未来的一年里Sandy Bridge到底能火多久？能飞多久？我们一起煮
酒论英雄。

Sandy Bridge简介
Sandy Bridge是英特尔即将在2011年的发布的新一代处理器微架构，仍然保持酷睿
i3、i5、i7三个系列分别针对入门级... 阅读全帖

r*****3
发帖数: 143

来自主题: Programming版 - 《Intel® 64 and IA-32体系结构：软件开发人员手册》文字版[PDF]

中文名: Intel® 64 and IA-32体系结构：软件开发人员手册
原名: Intel® 64 and IA-32 Architectures Software Developer's Manual
作者: Intel Corporation
资源格式: PDF
版本: 文字版
出版社: Intel Corporation
书号: 25462-042US
发行时间: 2012年03月
地区: 美国
语言: 英文
简介:
汇编语言和高级语言的最根本的区别在于：在汇编语言中，程序员必须掌握数据存储和
机器相关的大量细节。与高级语言相比，在声明和移动数据时，汇编器给了程序员极大
的自由。汇编器只进行很少的错误检查，但却提供了大量的操作符和寻址表达式，使程
序员几乎能够做任何事情。然而，这种自由是必须付出一定代价的。这种代价就是在开
始编写有意义的程序之前，开发人员必须掌握大量的细节知识。因而这也是《Intel&
reg; 64 and IA-32 Architectures Software Developer's Manuall》一书的功能所在。
目录:
Volum... 阅读全帖

k**********g
发帖数: 989

来自主题: Programming版 - c++这种语言注定了会越做越小

Any code needing numerical and signal processing would still need to write
in C or C++ or OpenCL via JNI.
For now, Java and Microsoft MSIL JIT still do not generate SIMD code
directly. Only Mono has SIMD support.
SIMD is significant for heavy numerical processing because it processes e.g.
4 - 16 values at once. GPU is even more powerful. These two techniques will
continue to scale up, in part closing the Moore's Law gap.
High-level libraries e.g. graphics, mathematical, financial, video
process... 阅读全帖

s****a
发帖数: 238

来自主题: JobHunting版 - 现在搞CUDA的好不好找工作

没错,我也看过opencl,可以说和cuda的driver API基本是一回事,写起来会比较繁琐,基
本思路还是一回事.
第二点不能同意更多,cuda的算法设计优化基本就是围绕硬件资源进行的,我不知道
opencl里面怎么做,但感觉它号称在各个平台都能运行不太靠谱.
GE healthcare投过,无回应

不过说实话，cuda只能算是SIMD中比较特别的一种。基本写cuda的要对硬件比较了解。
如果了解硬件的话，各种CPU的SIMD的东西最好也知道啊。
学术界火，大部分原因是NVIDIA给钱。
GE healthcare，
Pelican imaging
都有岗位，你可以去试试：－）

w****a
发帖数: 710

来自主题: JobHunting版 - FB onsite 面经

SIMD面试的时候突然问还真想不起来api。。
而且一旦SIMD事情就多了。。neon呢还是sse呢？

m**********6
发帖数: 1

来自主题: JobHunting版 - 加州Sunnyvale工作机会(Dolby)

麻烦给我发简历的人还是要有些视频或者图像处理技术，不然简历经过manager和hr手
还是会被刷掉。简历比较符合的，我会给manager，最近项目比较忙，所以我就不回复
大家的email了。
大家好。我目前在Dolby工作，主要做Dolby Vision编码端相关的事情（跟传统的视频
编解码有点区别）。我们组想招一个人，做视频编码相关的Project。主要开发工作都
在OS之上，主要是SIMD优化，多线程，数据结构和算法层次的优化。然后会把research
codes转化为production codes。所以得自己从头到尾开发程序。做的事情也比较有意
思，代码开发比较多。Manager也很nice，会很信任放手让你去开发任务。有兴趣的人
，可以投简历，我会帮忙推荐的。薪水虽然跟现在那些很热的互联网公司没法比，但是跟
传统的那些公司（qualcomm,broadcom,cisco,intel)应该差不多。而且每两周有个周
五可以不用上班。
如果刚毕业的，要求应该会低些。如果有兴趣请发简历到 [email protected]
/* */
主要的职位要求如下：
Job Tit... 阅读全帖

l*******m
发帖数: 1096

来自主题: Stock版 - NVDA的专利是不是很牛？

不能这么说，硬件的体系结构十分重要。Intel 是simd, NVDA 是simt, tpu是
systolic array. SIMD算矩阵io开销太大

t********e
发帖数: 34

来自主题: Immigration版 - 转让CS/EE TCAD journal审稿机会

Manuscript ID TCAD-2015-0250 entitled "An Accurate GPU Performance Model for
Effective Control Flow Divergence Optimization" with Prof. Liang as contact
author has been submitted to the Transactions on Computer-Aided Design of
Integrated Circuits and Systems.
The abstract appears at the end of this letter, along with the names of the
authors.
.....
MANUSCRIPT DETAILS
TITLE: An Accurate GPU Performance Model for Effective Control Flow
Divergence Optimization
AUTHORS: Liang, Yun; Satria, Muhammad;... 阅读全帖

f*******r
发帖数: 1

来自主题: SanFrancisco版 - 【JOBS】02.01 -- 02.14 职位空缺、求职

There are four software engineer positions available at www.ricoh-ews.com.
If interested, please send your resume to
Corinne Fotenos
Staffing/HR
EWS-Ricoh Innovations
(408) 501-3032
c*****[email protected]
www.ricoh-ews.com
1) Senior Embedded Software Engineer
Ricoh EWS is looking for an experienced embedded software engineer to
develop the low-level software system including kernel, device drivers as
well as middleware for a leading-edge embedded product, the Ricoh EWS device
. In this position,... 阅读全帖

l*********i
发帖数: 483

来自主题: Programming版 - 问个double和long double的问题

不好意思，再请教一下，我看到gcc在x86_64下面缺省的-mfpmath的flag的设置
是sse，在网上google到这么一段:
"sse- take a benefit of SSE2 (SSE3) instruction set (Streaming SIMD
Extension, SIMD - Single Instruction Multiple Data), a default mode for x86-
64 processors, to use this option one should also enable SSE and SSE2 (SSE3)
instruction set to be used in machine code, the FP computations are done
simultaniously on a 16 new 128bit registers (xmm0-xmm15), each of xmm
register makes the same operation on 2 doubles (or 4 floats), the re

b******n
发帖数: 592

来自主题: Programming版 - 瓶颈在哪儿？

normally you only should pay attention to the core computation loops. In C++
, you can profile your program to find the bottleneck. A few simple way to
improve the performance of your program:
1. Compilation optimization, google your compiler and platform, for example,
taking advantage of platform features such as vectorization, SSE, cache
optimization. If the computation is not so sensitive, use optimized math
library can speed up your calculation as well.
2. hand code SIMD instructions to do c... 阅读全帖

t****t
发帖数: 6806

来自主题: Programming版 - 震惊：java 的矩阵操作比 c++ 快？

来个完整的. 不要说不优化, 就是优化得不对, 也差远了. 这个换了台机器, Xeon
5670 @2.93G
EDIT: 加个cache aware的.
######## 不优化
$ g++461 11.C
$ time a.out
c++ allsum=1.86587e+16
37.868u 0.010s 0:37.88 99.9% 0+0k 0+0io 0pf+0w
######## -O2, 最普通的
$ g++461 -O2 11.C
$ time a.out
c++ allsum=1.86587e+16
10.012u 0.018s 0:10.03 99.9% 0+0k 0+0io 0pf+0w
######## -O3, 且允许SIMD
$ g++461 -O3 -funsafe-math-optimizations 11.C
$ time a.out
c++ allsum=1.86587e+16
8.649u 0.010s 0:08.66 99.8% 0+0k 0+0io 0pf+0w
######## -O3, 允许SIMD, 再unroll lo... 阅读全帖

T********i
发帖数: 2416

来自主题: Programming版 - 我是一个线程 (转载)

其实归根结底都是一个成本问题。
现在的系统架构都设计成Service-Oriented。这是所有问题的根源。web的架构本身就
是单向通信，req/resp。过把瘾就死。这种架构下，业务逻辑就要一级级往下走。如果
业务逻辑不涉及I/O，那么对性能基本没有影响。但是不涉及I/O的是不可能的。所以才
有各种各样的奇技淫巧。
以前java/php/ruby之类的架构，都是一个thread对应一个请求，顶多用thread pool限
制一下。所以都是thread大多数时候blocking for I/O。这种情况，不论是否用thread
pool，都会有各种各样的性能损失。
node.js之类的，利用层层回调解决I/O multiplexing的问题。即使是基于性能很差的
js，也能超多java之类的。最大的问题是，对于老应用需要重写。
fiber/go-routine其实都是co-routine。如果做得好，其实legacy代码需要的改动会很
小。这是很大的优势。go是新语言，不存在代码重写的问题。go对应于node.js也就是
说起话来能流畅一点，而且runtime性能更好。所以本版那些前... 阅读全帖

t******t
发帖数: 15246

来自主题: Military版 - Intel 2013 Haswell大一统：不再需要独立显卡

Intel 2013 Haswell大一统：一颗芯片搞定一切
按照Tick-Tock发展规划，Intel将在2013年发布继续采用22nm工艺、内核架构再次进化
的Haswell处理器。届时在笔记本领域，Intel将全面推行超轻、超薄、超低功耗的
Ultrabook概念。Intel首席营销官Tom Kilroy近日又透露了Haswell的另一个秘密：它
将成为Intel第一颗针对主流笔记本市场设计的SoC片上系统处理器。
SoC芯片都具备超高集成度，往往一颗芯片就能提供一套系统的全部处理能力，所以称
之为“芯片上的系统”。这种芯片一般都是针对智能手机、平板机等便携式设备和嵌入
式设备设计的，比如高通的Snapdragon、苹果的A5等等。
但是到了2013年，你的主流笔记本也能拥有SoC了。Hawsell将会把CPU处理器、GPU图形
核心、南北桥芯片、内存控制器、PCI-E控制器等等所有模块统统集成到一起，不再需
要其他任何辅助芯片。
Kilroy还声称，基于Haswell SoC处理器的Ultrabook笔记本在价格上也会非常主流化，
很可能就在599美元左右，诱惑力不言自明。
K... 阅读全帖

t******t
发帖数: 15246

来自主题: Military版 - 核高基项目：支持国产CPU的编译系统及工具链

“支持国产CPU的编译系统及工具链”是国家核高基重大专项课题（课题编号
为2009ZX01036-001-002），计算所是课题牵头承担单位，联合承担单位有中科院软件
所、北京大学、同济大学、中国科技大学。2010年课题取得了如下进展：所研制的支持
国产龙芯CPU的高性能编译系统，支持多种语言，性能高于商用编译器 GCC 的 30% 以
上；所开发的二进制翻译系统，性能达到GCC所产生代码的65%，并成功地为龙芯移植了
flash播放器。另外，本项目在高性能数学库软件包、程序调试和分析工具等方面，也
已基本上完成了合同约定的指标。具体进展如下：
龙芯基本编译系统的健壮性已基本达到产品编译器的水平。主要编译选项（O0/O2/
O3/ ipa/profiling）通过了 SPECCPU 2006 测试程序,SuperTest 通过率高于
GCC 的通过率，能够支持像 GCC 4.4 和 mplayer 等实际应用
程序，支持 Java、C++ 异常处理和 OpenMP3.0。结合龙芯3号处理器的新特征，通过数... 阅读全帖

e****M
发帖数: 280

来自主题: Military版 - 这次神威1600出来，洋人有点急了

高铁贪污那么重，到底什么样很难说。
龙芯是相当好的项目，成果很不错。MIPS根本不是问题。设计指令集比设计芯片容易多
了。说实话，放着现有的toolchain和软件不用，自己搞一套指令才是有病。
申威1600的数据太少不好判断。16个核，65nm，1Ghz只有30～70瓦，这东西看起来不像
是CPU，更像SIMD。你把相同多核的GPU或者ARM放一起，在加上水冷应该性能功耗差不
多，甚至有可能更好。当然这个东西要是真是CPU的话，那就比IBM牛逼多了。

y*d
发帖数: 2226

来自主题: Military版 - 大家说说，四种国产CPU，谁最有前途？

目前来看江南所最低调，但搞出来的东西最好
神威1600的设计还是蛮不错的。不要老是说Alpha，江南所搞的众核、新SIMD指令都是
老alpha没有的。
国防科大的报道不多，不太清楚
龙芯是几个里面最水的。因为是民用项目，龙芯可以拿到国外去流片，工艺上要比神威
先进几个节点。但是performance比神威还差了不少。你可以想象龙芯的设计得有多水
了。
去年中芯已经在为高通量产28nm高K工艺的处理器了。我看好申威使用28nm高k以后，可
以达到xeon phi用22nm trigate的速度（大约1TFlops）
但是我窃以为TG下一步的目标是要整合国内的几个项目。至少军队的两个是肯定会合并
的。理由有三个1。处理器项目投资巨大，与其撒胡椒面，不如集中资源在一个项目上
；2。军队内部的native code可以通用，便于开发维护；3。相关系统配套方便
估计不出两年TG就会有国标或军标的ISA出炉。
另外IBM也open source了power CPU的设计。在SMT和处理器频率方面，IBM还是有些特
色的。TG也可以借鉴一下

w******g
发帖数: 2047

来自主题: Military版 - 哪位大拿解释一下怎么算Bit Coin要用显卡

神威·太湖之光使用国家高性能集成电路（上海）设计中心研发的SW26010。此款处理
器，基于DEC Alpha 64微架构、64位、精简指令集、乱序运行、支持SIMD的申威-64架
构，制程未知。每个处理器芯片中有260个核心，采用大规模多核心并发运算的结构，
其中4个为资源管理用途，外256个作通用运算用途，
整套系统高达 40,960 个 SW26010处理器，共有 10,649,600 个CPU核心。每个处理器
为一个节点单元，一块主板上有两颗处理器，32块这样的主板组成一架主机，每台主机
作为一个“超级节点”，一共有256个这样的超级节点。

发帖数: 1

来自主题: Military版 - 估计几没写过汇编

Either because built in function is faster or perhaps matrix operation can
take advantage of SIMD
[在 daigaku (๑۩۞۩๑) 的大作中提到：]
:从高级的层面说，MATLAB之类的要尽量避免loop语句，
:多用矩阵运算

f***y
发帖数: 4447

来自主题: Military版 - 这玩意基站用不上

高速DSP有华睿2号。其实华为也有自家DSP。
中国电科14所成功研制华睿系列芯片，实现国防核心装备信号处理自主安全可控
近日，由中国电科14所研制的华睿2号高性能DSP顺利完成流片及测试工作，标志着华睿
2号高性能DSP研制工作取得了决定性胜利。华睿2号的成功研制将DSP的处理能力提升至
每秒四千亿次运算水平；与国外新一代同类处理器相比，功耗有效降低了30%，成功实
现了国防核心装备信号处理安全高效、自主可控。
开拓创新，华睿芯片形成系列化
中国电科14在项目研制过程中，始终坚持“以需求为牵引”的研发指导思想，采取“
产学研用”相结合的研发模式，通过持续投入核心芯片的研发，掌握了CPU和DSP技术融
合、多核同构/异构、可重构处理、硬件维护Cache一致性、矢量化编译等高端芯片研发
核心技术，构建了长期持久的竞争力，形成了华睿1号、华睿2号等系列化DSP产品。
华睿2号DSP为八核异构架构，采用了超标量结构、SIMD向量处理、可重构加速处理等
技术；建立了包括支持中国电科32所ReWorks操作系统、人大金仓嵌入式数据库、编译
器、调试器和基于VSIPL标准的矢量函数库等全国产化DS... 阅读全帖

a***e
发帖数: 27968

来自主题: Military2版 - 龙芯3B流片成功[zz]

所以还是SIMD?
不带这么吹牛的

j*******2
发帖数: 386

来自主题: Military2版 - 龙芯3B流片成功[zz]

哈哈，
对的对对，并行计算都是--矩阵向量运算，没有分支的，全部是矩阵乘法，内存访问都
是很规整的，而且都是单精度浮点的。小菊，你OK的。
再给你补补课吧，GPU的并行单元一般是128位或者256位，单精度浮点（因为图像计算不需
要dobule floating point)。从单个SIMD单元来看，目前的CPU完全和GPU一样，甚至还
好。
GPU的比CPU强的地方在于它有很多个核，这也是由现有的图形加速算法来决定这种设计
方式的。

j*******2
发帖数: 386

来自主题: Military2版 - 龙芯3B流片成功[zz]

那不至于，还不是前后端验证程序没写好，又着急上马。
加上龙芯3,SIMD大跃进，所以bug多也正常的。
不可能靠仿真器的，simulator还不是人写的，一样bug很多。
做做前期的软件调优还行。不能做硬件的验证。
据说龙芯3B，大幅改动了前端设计。

y*d
发帖数: 2226

来自主题: Military2版 - 菌斑这么多IT WSN，按说应该能看懂神威的，咋都是些外行在咋呼呢

一、申威CPU Architecture分析
现在的新闻没有公布细节，但可以毛算一下这个CPU是啥样子的：
峰值速度1070万亿次，8704片cpu，16core
平均每core大约77亿FLOPS
目前cpu频率大约在1G 2G 3G这种水平，考虑到神威的低功耗（后面详细讲）
主频应小于2G
按2G算就是每指令周期做39次单精浮点计算
我估计最有可能的是，主频1.2G，每个周期64个浮点运算（算下来大约是76.8亿FLOPS）
和天河一号用的nVidia Tesla M2050 GPU对比一下
2050有16个SM，每个SM每周期也是可以做64个浮点运算，主频1.15G
申威CPU 16个Core，每core 64个浮点运算，主频1.2G
可以看出在计算单元配置和主频选择上，申威和Fermi Tesla基本一样
但是GPU有一个取巧的地方是GPU有一个Fused MUL ADD运算。这样一个运算顶两个，所
以实际只有32个计算单元，却号称64个浮点运算。而实际上，很少有哪个程序可以全是
用这个特殊运算的。所以GPU的实测速度会低很多。使用GPU的中国的天河1，倭国的つ
ばめ（燕）都... 阅读全帖

y*d
发帖数: 2226

来自主题: Military2版 - 前一篇帖子小数点错了一位，汗

申威的实测速度只有理论数的74%
比鬼子的93低很多
在1G的速度上，memory和cpu的速度差不算太大，cache还不是主要的瓶颈
所以我猜他们慢的原因是像AVX一样用256 bit SIMD，而在OOO和超线程方面没有鬼子那
么aggrasive

D*V
发帖数: 3096

来自主题: WorldNews版 - Intel 2013 Haswell大一统：不再需要独立显卡zz

发信人: thinknet (我是云), 信区: Military
标题: Intel 2013 Haswell大一统：不再需要独立显卡
发信站: BBS 未名空间站 (Mon Jul 4 02:26:33 2011, 美东)
Intel 2013 Haswell大一统：一颗芯片搞定一切
按照Tick-Tock发展规划，Intel将在2013年发布继续采用22nm工艺、内核架构再次进化
的Haswell处理器。届时在笔记本领域，Intel将全面推行超轻、超薄、超低功耗的
Ultrabook概念。Intel首席营销官Tom Kilroy近日又透露了Haswell的另一个秘密：它
将成为Intel第一颗针对主流笔记本市场设计的SoC片上系统处理器。
SoC芯片都具备超高集成度，往往一颗芯片就能提供一套系统的全部处理能力，所以称
之为“芯片上的系统”。这种芯片一般都是针对智能手机、平板机等便携式设备和嵌入
式设备设计的，比如高通的Snapdragon、苹果的A5等等。
但是到了2013年，你的主流笔记本也能拥有SoC了。Hawsell将会把CPU处理器、GPU图形
核心、南北桥芯片、内存控... 阅读全帖

h****y
发帖数: 14

来自主题: JobHunting版 - Inter/Co-op Position - Software Developer at MathWorks Inc.

Summary
Join us as we accelerate the pace of engineering and science. As a member of
the Simulink Core team, you will help us enhance the Simulink modeling
environment and expand its automatic code generation capabilities, and
maintain the competitive edges on our floating-point and fixed-point designs
. We are looking for an energetic software engineer who can make a
difference in the development of Simulink. http://www.mathworks.com/products/simulink/
Responsibilities
Passionately build Simul... 阅读全帖

a********m
发帖数: 15480

来自主题: JobHunting版 - 程序优化的方法

展开循环。
simd.
汇编。
关键还是找到瓶颈。

s******n
发帖数: 3946

来自主题: JobHunting版 - 帮看一道优化的电面题

写SIMD指令。。。。

s******n
发帖数: 3946

来自主题: JobHunting版 - 帮看一道优化的电面题

ARM的SIMD寄存器128bits，可以一次计算4个32整型。
一次从b加载4个整型，a加载4个整型。。。做循环，最后要单独处理不能被4整除的部
分。

b***u
发帖数: 61

来自主题: JobHunting版 - NVIDIA VERIFICATION interview questions

fresh phd面过最后给了sr 硬件工程师。可能是背景原因，问的问题主要是c++白板
编程。题目都很简单，不超过carrercup的难度。
onsite的时候唯一的硬件题目是设计一个IPC=1的简单处理器要求在白板上给出
pipeline的block图。后来想想比体系结构上的5stage mips简单得多了。但是因为当时
突然被问到，答的有点紧张。然后就是提出验证方案。瞎说了一气，老大看起来不是很
满意。
真正的悲剧发生在一个美国帅哥的题目上。大概是看我用过cuda，问GPU线程SIMD在发
生分支的时候需要用串行化模拟，这样做为什么无法完全模仿真正并行执行的行为。我
说了一堆也不在点上。然后帅哥就说那我们来讨论一下c++吧，然后就问了一个
template的题目。这个是真心不会。平时用stl的时候从来没想过看看那些Signature到
底是怎么设计的。结果又被帅哥鄙视了。
onsite的5轮里面有大部分是architecture组的人面的。硬件组的人也没有问rtl设计的
问题。个人觉得主要还是应该多练白板编程。体系结构应该比较熟。硬件设计的要求不
高，会用Verilog即可... 阅读全帖

j*****l
发帖数: 1624

来自主题: JobHunting版 - 看，这才是我的终极dream position

这才是我的终极dream position.
如果我去了general的公司，想去这种职位岂不是要走很多弯路？
保佑保佑我吧。。。
R&D Engineer
Research and Development
Industrial Light & Magic San Francisco, California - United States
Job Description:
R&D Engineers develop software systems and techniques for creating visual
effects, animation, and games. This position emphasizes high-performance and
scalable software architectures for computer graphics applications.
•Designs and develops new systems for production of high-end digital
content
•C... 阅读全帖

c****p
发帖数: 6474

来自主题: JobHunting版 - 问道电面算法题

那是用了SIMD这类东西吧？

k********h
发帖数: 22

来自主题: JobHunting版 - [Job Opening] 3D Engine Developer - Physics and Low Level Optimization

About Us:
ROBLOX is a leading user-generated gaming site that makes players the
architects of their own 3D worlds, drawing over one billion page views and
21 million in-game hours each month. The site is ranked #1 in the US for
total engagement time within the 8-14 year old segment, and is rapidly
growing in popularity amongst players aged 15+. Our vision is to become the
leader in user-generated gaming for all ages, around the world. On ROBLOX,
players use core building components to create ela... 阅读全帖

B*******1
发帖数: 2454

来自主题: JobHunting版 - Job opening: SDE II plus in Microsoft, Bellevue, WA

1个星期写了1000行汇编，每行都是simd的。

p****a
发帖数: 447

来自主题: JobHunting版 - FB onsite 面经

SIMD，越大越快...

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天