g****2 发帖数: 281 | 1 面试的时候感觉VP挺aggressive的,不知这家公司氛围怎么样,有没有知道的给说一下
,最晚这个周末要做决定了,感觉做的东西对我将来会比较有用,不过有可能是做新产
品,不是做mapreduce开发 |
|
g****2 发帖数: 281 | 2 应该是Drill,公司管理层都是印度人,有点担心,特别是VP面试的时候很Aggressive
的样子。 |
|
l*****t 发帖数: 2019 | 3 我怎么觉得是中东人。美国花了的,其实挺牛X的。
搞drill好呀。建议你去。不过既然人要你,说明你也是大牛,好好谈谈价钱。
Aggressive |
|
g****2 发帖数: 281 | 4 我不敢称大牛,linkedin上看了一下,CTO,VP,Senior Director都是印度人 |
|
g****2 发帖数: 281 | 5 我不敢称大牛,linkedin上看了一下,CTO,VP,Senior Director都是印度人 |
|
l*****t 发帖数: 2019 | 6 看了一下,没看到一个中国engineer.
好像core engineering都是印。
不应该有什么好的culture。
不过你可去干一干,然后在跳cloudera,你搞drill的肯定会是像馍馍。
如果要去的话,多跟Ted, Tomer混混。 |
|
g****2 发帖数: 281 | 7 Ted是做Drill吗?我见的那个architect好像不是他。 |
|
|
|
g****2 发帖数: 281 | 10 Confirmed,不是Drill,可能是HBase,也有可能去做hadoop |
|
b*********n 发帖数: 1258 | 11 我是hadoop 菜鸟,第一次用
我的job 就是个很简单的map job, no reducer,
mapper 也就是一些很简单的命令,会有一些输出到stderr, stdout
我的hadoop 命令output option:
"-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat " .
"-output NONE " .
map 一直fail,error message 如下,不论我是否supress所有的stderr, stdout,一直
是下面相同的error message.
那位高手可不可以指点一二。谢谢
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess
failed with code 143
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.
java:311)
at org.apac |
|
s*********a 发帖数: 418 | 12 挖坑吗,1%在这个阶段不可能,除非你是e-staff |
|
|
|
n****n 发帖数: 568 | 15 下次挖坑请注意让数字靠谱点,这里startup及其家属很多的,还MS+3year experience
能拿1%呢?你老人家估计都不是IT从业人员吧, |
|
P**********c 发帖数: 3417 | 16 感觉做这个的startup很多,不知道它有什么比较优势。 |
|
p******t 发帖数: 1598 | 17 挖坑稍微敬业一点,50-100人,你拿1%,去作CTO? |
|
c***z 发帖数: 6348 | 18 thanks a lot for the info! |
|
f**d 发帖数: 177 | 19 同学,找工作是双向的,不光是你面试别人,给OFFER就一定要加入,你们能做到去面
试就一定给OFFER吗
I can do limited referral based on your background and only do referral if
you can commit to join the company if you get offer. if you want me to refer
, send your resume to m**********[email protected]. Otherwise, you can submit your
resume directly from the company website. |
|
b***n 发帖数: 80 | 20 里面的老印乌泱乌泱的,估计80%都是老印吧
特别是高层,几乎无一例外,全都是老印
1~ |
|
m********8 发帖数: 7463 | 21 双向是说你自己网申然后可以双向选择。
如果你求人推荐,那么你的义务是
1:无条件做推荐人的忠实盟友,他如果开会说没球是白的你也要找理由支持之。
2:收到offer必须答应去。可以讨价还价但是不能无理由不去。
这个最基本常识了
refer
your |
|
b***y 发帖数: 177 | 22 2没听说过,谁说refer就一定要去的?换工作是大事,当然要货比三家。 |
|
|
b***y 发帖数: 177 | 24 这个只能呵呵了,我也引荐过以前学校老板的学生,但是他们拿到更好的offer,我难
道要求他们必须来我这吗? |
|
m********e 发帖数: 63 | 25 I agree a lot of engineers are indian there. That is because the co-funder (
CTO )and some early stage engineers who build the products are indian
engineers. But there are also plenty of Chinese engineers there. I do not
think 80% are indian engineers. The indian engineers there are pretty
decent and nice to work with. With the company expanding, hope more Chinese
engineers join the company and enter the big data platform world. |
|
m********e 发帖数: 63 | 26 I am willing to refer my friends, my previous colleagues, my classmates or
my labmates without any condition. But for my reputation, I cannot refer
strangers like you without any condition. That is it! |
|
w********o 发帖数: 440 | 27 可以理解,我推荐过一个人, hiring manager也是问他,给offer来不来, 因为不来会对
manager不好. 他说来, 结果第二天拿offer就说不来,敢情拿OFFER 去counter了。后来
hiring manager 再也没找我refer过。
refer
your |
|
c**l 发帖数: 9003 | 28 "hiring manager也是问他,给offer来不来"
这么问不professional,是hiring manager 不对。 |
|
m********e 发帖数: 63 | 29 If you are scheduled an onsite interview and you need to take couple days
off to flight there, but you want to confirm the company will not cancel the
interview for you on that day. The same thing for the company. For a
company specially startup company, it is a lot effort to schedule onsite
interview and issue an offer for an candidate. There is nothing wrong for
the hiring manager to ask. But nobody enforces the candidate to accept the
job offer.
If you have a chance to be the hire manager, yo... 阅读全帖 |
|
o**********e 发帖数: 18403 | 30 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: 硅谷地区中型 Startup List
发信站: BBS 未名空间站 (Fri Aug 15 01:29:58 2014, 美东)
给大家一个Startup List做参考: 这些基本上都是这两年很hot的公司,规模在100人以
上,分布在云存储,大数据,consumer internet,健康应用,移动app,大家在
crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就可以
了。
dropbox
continunity
cloudera
hortonworks
mapr
fitbit
glassdoor
tango
uber
sharethis
coursera
quora
evernote
pinterest
airbnb
snapchat
think big
houzz... 阅读全帖 |
|
z*******h 发帖数: 346 | 31 Yep. We use CDH. Do you use MapR? |
|
w******c 发帖数: 574 | 32 看了下网上的tutorial,好像介绍的都是怎么设定搭建hadoop cluster的
现在我这边是用系里已经搭好的cluster
给了fs.default.name和mapred.job.tracker就可以用了
我想问那我怎样才可以控制使用nodes的数目呢
缺省状态下是用多少个node?这个在哪里可以看到? |
|
l******t 发帖数: 660 | 33 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapRedu... 阅读全帖 |
|
|
a*f 发帖数: 1790 | 35 基因组拼接搜寻空间太大了,不能从算法上解决吗?比如搞成类似MapR的结构速度成本
都能优化
256GB |
|
b*********n 发帖数: 1258 | 36 【 以下文字转载自 SanFrancisco 讨论区 】
发信人: babyfacenan (黑土), 信区: SanFrancisco
标 题: 菜鸟请教个hadoop streaming job 的问题
发信站: BBS 未名空间站 (Sat Feb 20 19:53:34 2010, 美东)
我是hadoop 菜鸟,第一次用
我的job 就是个很简单的map job, no reducer,
mapper 也就是一些很简单的命令,会有一些输出到stderr, stdout
我的hadoop 命令output option:
"-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat " .
"-output NONE " .
map 一直fail,error message 如下,不论我是否supress所有的stderr, stdout,一直
是下面相同的error message.
那位高手可不可以指点一二。谢谢
java.lang.RuntimeException: PipeMapRed.wai |
|
S*******h 发帖数: 7021 | 37 之前有网友推荐这些. 我还没去仔细看过 你参考看看吧 有用的话上来吱一声
---------
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随著大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, B... 阅读全帖 |
|
S****h 发帖数: 558 | 38 The most widely used and supported version is still 0.20 I think (including
CDH 3/4). They probably are going to carry the old mapred.* API for a long
long time. |
|
|
t*******e 发帖数: 684 | 40 Brisk, Hadoop on CFS,不过不是apache搞的。Besides, Cassandra can work
natively as a hadoop data source or sink.
:现在apache已经开始整合cassandra跟hadoop了
没有的事儿。怎么整合?cassandra on hdfs? mapred optimization on cassandra?
凑合粘乎一下还行,整合就不可能了。 |
|
r*******k 发帖数: 44 | 41 我估计您只读过一些过时blog, 网文之类,没有hands on experience. (sorry,
really not nice)
NameNode HA 在2012年中已经比较成熟,我知道的多数公司2012年底已经upgrade
their production systems to use Namenode HA. 如果你听说过spof of NN,那是
2013年前的事情了,以后千万别提了。
这个领域的特点,所有的事情的都在moving around。如果你不肯定,请不要乱说。
这里不适合讨论cassandra hbase 实现细节一类,理论上的东西和实际差远了,看似美
好的东西实际实现两码事,你需要做很多的妥协来实现这些美好的目标,而cassandra
需要妥协的地方的太多了。不要以为fb, twitter ,还有其他一些公司drop cassandra
是没有strong reason的。再踢一次,cassandra 是fb 最早开发的,现在他们已经退
出很久了。
关于mapred on CFS,that's my point, 只是粘合: cassandra imp... 阅读全帖 |
|
r*******k 发帖数: 44 | 42 yarn 的几个比较大的目的包括:
1) support 4k+ nodes
2) support 除mapred 外其他的computation frameworks, like mpi, Giraph, spark,
etc.
对于1来说,目前只对yahoo 一家有意义,他们公司的策略是建一个几万node 的
cluster shared by 所有项目。95%的公司根本没这个规模,其他5% 有相同规模的公司
都采用多个cluster, each for a project 的模式,最大1k node 顶头了。
真正需要2的,不好说有多少,听人propose的多,真正用的人不知道。
因为以上这些原因,他们需要把resource, node, application and job management
分开,提供不同的services。听起来复杂,实际totally make sense.
yarn 这个项目从一开始就是被yahoo 推动,而后有hortonworks 接手。yarn 的方向不
错,但目前,和短期内,只对yahoo 有意义,对多数人来说,可以不用管。我本人觉得
,... 阅读全帖 |
|
p*****2 发帖数: 21240 | 43
mapred
这个感觉最好还是做相关工作比较知道需要学习什么。不然平时学了不用,意义也不是
很大。而且很快就忘了。 |
|
b*********n 发帖数: 1258 | 44 【 以下文字转载自 SanFrancisco 讨论区 】
发信人: babyfacenan (黑土), 信区: SanFrancisco
标 题: 菜鸟请教个hadoop streaming job 的问题
发信站: BBS 未名空间站 (Sat Feb 20 19:53:34 2010, 美东)
我是hadoop 菜鸟,第一次用
我的job 就是个很简单的map job, no reducer,
mapper 也就是一些很简单的命令,会有一些输出到stderr, stdout
我的hadoop 命令output option:
"-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat " .
"-output NONE " .
map 一直fail,error message 如下,不论我是否supress所有的stderr, stdout,一直
是下面相同的error message.
那位高手可不可以指点一二。谢谢
java.lang.RuntimeException: PipeMapRed.wai |
|
w***g 发帖数: 5958 | 45 Hadoop源代码中有这么一行
TaskRunner.java: String javaOpts = conf.get("mapred.child.java.opts", "
-Xmx200m");
也就是说如果不设置这个参数的话,每个task最多只有200m内存。再刨掉hadoop本身用
的,也就每个task 30m的样子,远远不够用。把这个参数调大道2000m就不再出错了。
In |
|
z*******h 发帖数: 346 | 46 比如MapR的文件系统就是用C++重写的,比Apache HDFS快一个量级。
比如Cloudera的Impala是Oracle跳过去的人用C++写的,比Hive快一个量级。 |
|
|
c********g 发帖数: 1173 | 48 看来大多数人对startup的看法是太off了。
有一种startup做技术咨询,比如你和几个朋友,都会做app,就合伙开个公司,一起接
活。这样的公司比较大的例子是Cloudera和MapR。对于这种公司,最技术的是很重要。
即使是这样,除了Doug Cutting那个level的,恐怕没有employee能拿到2%。而且,这
种公司在startup里是少数。
大多数startup都是有个business idea,然后找做技术的来实现。这种情况下,做技术
的真没那么重要,尤其是早期。能找到懂技术的朋友最好,找不到就直接去elance外包
也问题不大。毕竟,这时候只要能有个产品,能够开始grow user,就行了。而且,不
管你信不信,这个产品技术的好坏真和user growth没太多关系。
再说说stock option。为什么startup发的stock option(按占公司比例来说)比大公
司多?因为startup通常比较小。为什么公司小就要多发option?因为公司小你加入之
后承担的risk就大。而option就是对你所做的贡献,以及所担的风险的回报。并不仅仅
是因为你的... 阅读全帖 |
|
t****n 发帖数: 353 | 49 cdh is cloudier's hadoop build |
|
w***g 发帖数: 5958 | 50 在mapr上的spark vs hive,数文件行数。四台服务器一共330134452行。
hive 49.162s
spark-shell 43.590s
pyspark 67.182s
也就一般般而已。 |
|