由买买提看人间百态

topics

全部话题 - 话题: bigtable
首页 上页 1 2 3 4 下页 末页 (共4页)
y**********a
发帖数: 824
1
来自主题: JobHunting版 - Offer from google

你不要误人子弟。 Google 确实好,但不是 "养老" 的地方, I am living proof.
Google 的 infrastructure 非常好,进来后看看 borg, mr, millwheel, flume,
bigtable, spanner 这些东西,会对 distributed system, a.k.a. big data/cloud
有全面的理解。
名气这东西虚无缥缈。我去面试,连 phone screen 都不能省。
T*******e
发帖数: 4928
2
confirm楼里对的,和纠正楼里几个有误的地方。
狗家SWE-SRE换SWE无需额外的track interview. 因为招人
的面试程序和难度跟SWE一样。
一般的SWE-SRE, 除去狗家production系统运行监测要写的
狗家特定语言的scripts和html(因为出了狗家,外面没用),
研发程序产出量比纯SWE少一大半。当然具体情况要看
组和个人努力。想一想也知道,比如spanner (bigtable,dremel,
borg,mr,gfs,chubby等等系统也一样),别人都研发好了,
我如果只是用, 一两周就上手了。如果是帮助其他用户监测维护处理
各种相关问题,一个月也上手了。但是自己设计开发一个类似功能效率
和规模的nosql, release给成千上万的用户,至少要几年. 这之间
的难度,产量和锻炼的东西是大不一样的。用cloud和真正设计开发cloud
怎么可能一样。这就是为什么有的SRE一年就跳了。
有的SRE组有oncall bonus(好像是20%到10%左右)。有的组只给一年
左右就没有了。这要看具体oncall的项目。
最... 阅读全帖
d********g
发帖数: 42
3
来自主题: JobHunting版 - casandra 的search 功能不行
You miss the point of using cassandra, it is not meant to be fast in
searching in the first place. BigTable/Hbase is the same.
n******e
发帖数: 708
4
这不是一个人的活,也不适合初学者。如果你想学习前台的语言还好办,随便找本书就
行。
后台各个大公司都有自己的一套系统,如果你想了解一下可以google google
bigtable, hadoop hbase 之类的关键词,大概能管中窥豹一下
k*****s
发帖数: 30
5
来自主题: Stock版 - google 数据是用oracle储存吗
bigtable 也算是nosql
y*d
发帖数: 2226
6
来自主题: Stock版 - google 数据是用oracle储存吗
The hottest topics in database research are nonsql (e.g. key-value store /
bigtable / hbase) and non-ACID sql (lots of papers published recently). But
these new DBs are only for the new applications (such as internet services
and big data analysis).
The traditional industries (e.g. Walmart, Costco, commercial banks) will
continue to use the strict ACID sql relational database (oracle / db2 /
mysql) for at least 20 years.
Most of the potential nonsql / nonACID users are not existing oracle users.... 阅读全帖
C*******n
发帖数: 40
7
来自主题: SanFrancisco版 - 该从微软跳槽去google吗?
有道理。
MSFT是在走下坡路时困兽犹斗,整个公司的culture 决定了大伙都是在混日子养老,上
层只是希望能够延续以前的廉价产品打败对手从而占据市场份额的老思路,从而对创新
熟视无睹,也基本上没有创新的环境。Windows几十年的Codebase也不会从头更新来应
付网络的挑战。很多网络的瓶颈最后都卡在这一块,比如Bing Search ,其根本问题是
infrastructure 的问题,scalability 和performance始终无法突破瓶颈,因为还是沿
用用单机的操作系统内核。
而反观Google, 是蒸蒸日上的技术新贵,因为没有旧的历史桎梏,一切都可以大开大
合,从头瞄准网络的应用做最佳设计,从硬件到软件都是自己从头设计,达到最佳的
scalability 和performance,这就是为什么它每一个产品都是充满创意和冲击力。
我听说Windows 即使是64 bit 也最多只能有 1TB 的内存,但是 Google自己设计的
Bigtable可以把整个网络的网页都载入内存,一台机器可以有好几个TB的物理内存。。
。。 差距是什么,这就是差距!

的商业模式。
P*****f
发帖数: 2272
8
just for example,
bigtable inspired many NoSql systems
Z*******o
发帖数: 10
9
来自主题: SanFrancisco版 - 谷歌的阿三高管们
已经全面接管狗狗的各条核心战线,依我看狗狗的衰落已经是指日可待了。
Nikesh Arora
排名仅在Larry/Sergey/Eric之下,手下管1万多人,实际权力排名第二。狗狗的全球
sales VP,什么狗屁都不会,学历低的吓人,Larry让一年 60B 的收入在他手下过,
真是瞎了眼。随便换个五道口技校出身的老中,至少比他多20%。
master’s degree from Boston College and an MBA from Northeastern University
, In 1989, Nikesh graduated from the Institute of Technology in Varanasi。
Amit Singhal
门外汉一个,这么多年管Google Search,只会让人输两字,出来一些网页链接。
Sridhar Ramaswamy
一直跟着苏珊大妈混口饭吃,终于看准机会,把大妈踢走,独揽狗狗 Ads 部门。
狗狗的Ads终于从占公司 99% revenue 跌落到 90%,离大规模崩溃不远了。相比起来
大妈去了Youtube,还算是给老... 阅读全帖
b*******d
发帖数: 750
10
来自主题: SanFrancisco版 - 谷歌的阿三高管们

Google Fellow. 1999年加入Google, 就做了少数几个项目,比如 GFS/MapReduce/
BigTable/Spanner,不知道怎么当上了 Fellow,多半是沾了 Jeff Dean 的光,估计
当年 Jeff Dean 写代码没时间吃饭,中午的盒饭都是他去order的。
这段让我觉得是明黑实托!!
n*******e
发帖数: 137
11
这个position 有多个opening。
下面是job description. 有些tool是公司内部用的,所以没用过也没关系。主要是对
big data, hadoop, map reduce, data warehouse比较熟就好了。有兴趣,请站内联系。
The Analytics Backend team has a whole bunch of new exciting efforts that we
are hiring for. These projects span a wide range of exciting areas
including large scale (~100 Petabytes) data processing, querying (100M+
queries/day), indexing and serving. You will get the chance to work with a
really fun team of engineers, get exposure to lots of senior engineers, hav... 阅读全帖
f********t
发帖数: 6999
12
【 以下文字转载自 JobHunting 讨论区 】
发信人: auyin (auyin), 信区: JobHunting
标 题: 关于湾区马工的现状和未来,想简单说两句
发信站: BBS 未名空间站 (Tue Apr 21 15:16:00 2015, 美东)
1. 大环境烙印多、抱团、占坑、打压华人都是现实,他们登陆美国比这代华人早(老
一代华人基本都是开餐馆的,80年代才开始有一定数量的留学生来美国),人数远远高
于华人(看看每年ICC file H1b的人数就知道),而且从小受到的教育就是敌对中国(
在人家历史课本里中印战争是“中国侵略印度”)。
2. 华人由于语言的缘故大多不喜欢抛头露面,走管理线的基本都是native speaker,
比如ABC、CBC之类。华人本身地方文化差异、价值观差异也很大,大陆港澳台新这些华
人想法观念差异都很大,但总体来说相互还是会亲切一些,个别极品除外,BBS这里的
现象就是,好事不出声,坏事传千里,其实极品奇葩也没那么多,起码我身边的华人无
论大陆还是香港台湾都挺团结。
3. flg想进去真心不难,但这些公司的薪水其实这几年并没有怎么涨,... 阅读全帖
c*********l
发帖数: 3438
13
来自主题: SanFrancisco版 - 百度朝花夕拾 (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: 百度朝花夕拾
发信站: BBS 未名空间站 (Tue May 26 01:00:38 2015, 美东)
有人说百度是中国IT的黄埔军校,有人说百度商业化很浓的广告公司,在百度我也待过
一阵,后来出国读书,我看到百度经过这几年的洗礼,更加成熟和强大,而自己也对技
术有了更多领悟。现在想想要感谢百度,感谢伟大的百度人民。那些当年的同事有人人
肉翻墙去Google,有人去新一代的创业公司,有人转型创业投资,有人继续成为百度的
中流砥柱。我想说一些轶事。
百度小故事
百度的创办
大家对百度的历史可能耳熟能详。李彦宏Robin讲过一个故事,当他99年回国创业的时
候,搜索引擎也不是最新的概念了,人家问他做什么,他坚定说做搜索,有人觉得当时
也有好几家做这一块,这不会太大的机会的。后来的事情大家都知道了,百度成为中文
第一搜索品牌。所以他总结“机会永远不会迟”,关键是事情有没有做到“极致”。
鸡翅的故事
Robin向百度全体员工通发了某季度总结邮件,却忘写... 阅读全帖
h***o
发帖数: 1494
14
Google Wave前工程师 Dhanji R. Prasanna(上图是他的Twitter头像) 昨天发了一篇
博文,
解释了自己为何要离开Google,其中谈到了Google的文化,但最有趣的部分其实是他说
“Google一直
自夸的具备延展性的软件架构已经过时了”。尽管他承认Google的硬件架构依然是完美
的艺术品,但其
为搜索引擎和爬虫设计的软件至少落后了10年。
Prasanna说Google依然在使用Protocol Buffers, BigTable 和 MapReduce这种恐龙级
别的
玩意,跟MessagePack, JSON 和 Apache Hadoop 一比简直就是老古董。而像 GWT,
Closure
和 MegaStore 这些新的工程也是进展缓慢,跟快速发展中的jQuery 和 mongoDB完全没
的比。
Prasanna还说Google的软件架构是为活在真空里的工程师设计的,而非真正需要开发工
具的开发者。
最近The Register的Cade Metz也写了一篇关于Google App Engine的文章,提到Google
的架
构,尽管这些... 阅读全帖
l*******g
发帖数: 4894
15
来自主题: MusicPlayer版 - 奔个80后都知道的,哈哈
我来给你个专业解释把。这不是老邢优化代码,是google最终把他的search的技术改到
了youtube上面了,用了restful web service。原先全部集中在watch这个bigtable了,
现在代码优化了。
w*********e
发帖数: 5286
16
来自主题: Zhejiang版 - 关于微软重组的感想
networking有什么可以瞧不起别的人,我还以为是搞theory的呢
不过话说回来哈,这些年DB的academia被stonebraker等几个
老大及其一帮孝子贤孙把持着,只会盯着自己那一亩三分地,
好像什么大东西都没搞出吧,
bigtable, hadoop, nosql 之类都是industry弄出来的,搞出来之后
这几个大牛牛还要泼冷水,呵呵
w*********e
发帖数: 5286
17
来自主题: Zhejiang版 - 关于微软重组的感想
networking有什么可以瞧不起别的人,我还以为是搞theory的呢
不过话说回来哈,这些年DB的academia被stonebraker等几个
老大及其一帮孝子贤孙把持着,只会盯着自己那一亩三分地,
好像什么大东西都没搞出吧,
bigtable, hadoop, nosql 之类都是industry弄出来的,搞出来之后
这几个大牛牛还要泼冷水,呵呵
z***e
发帖数: 5393
18
Is facebook using mysql as backend? I don't know. They can, but not
necessary.
Is MySql able to handle that many data? Yes&No. From data size, they can use
multiple mysql database on different machines and apply some distributed
algorithms, same idea as bigtable in google. Since they need special
algorithms to handle data, using MySql or not is not really that important -
M**u
发帖数: 10158
19
GFS是03年SOSP吧
BigTable是06年的OSDI很正常啊,他是基于GFS的,之后的Google Earch,Google
Finance都是基于它的
d*******o
发帖数: 10
20
osdi/sosp的paper当然好了
mapreduce, gfs,bigtable
r**t
发帖数: 937
21
那是一个英雄辈出的年代,做出类似idea的人很多,li,page,还有kleinberg....
li做类似的idea比google早,但是google在工程上真是无与伦比的成功。搜索引擎不是
pagerank那么简单(传言说google从来没有完整实现过pagerank),google背后的牛人
多了。Sanjay Ghemawat和Jeff Dean的GFS,BigTable,MapReduce对google的贡献肯定
比pagerank大。
o****p
发帖数: 103
22
哥们你真逗,“中个FAST应该不难”,还“圈子比较窄,新东西少,学术界搞的人比较
少”
FAST在所有CS的conferences里也是前20的。每年系统方面的top conference,SOSP/
OSDI里都专门有storage或者I/O
的session: http://sigops.org/sosp/sosp09/program.html 莫非在您眼里系统领域也是“圈子比较窄,新东西少,学术
界搞的人比较少”
看不懂什么叫“来钱不如google快”,storage本身是google的top priority之一,
google file system是很大的一个项目,
还有bigtable啥的。

project
l***i
发帖数: 289
23
另外这个Jeff Dean就是搞出来MapReduce和Bigtable的人,大牛。
l***i
发帖数: 289
24
另外这个Jeff Dean就是搞出来MapReduce和Bigtable的人,大牛。
z***y
发帖数: 7151
25
来自主题: Database版 - Digg says yes to NoSQL, bye to MySQL (ZZ)
NoSQL 是很酷的技术。但是,它和很多其他开源数据库方案一样,在可管理上欠缺。在
这一点上,商用数据库作的很好。
amazon 自己的dynamo 和 google 的bigtable,都是NoSQL的实作。国内有一个叫作doubanDB, 也
是同样的产品。开源的有Cassandra, 我现在也在学习当中。
微软和oracle都有类似项目,他们的目的都是要在各自的数据库上实现非关系数据模型。
不过阿,这个方向,个人靠他挣钱还不现实。真正有需求的公司,太少太少。
l******t
发帖数: 660
26
来自主题: Database版 - hadoop面试和学习总结 (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapRedu... 阅读全帖
l*****e
发帖数: 3343
27
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: Hadoop面试和学习小结[2013版]
关键字: 面试,Big Data,Hadoop
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
[2013 UPDATE]
Hadoop 2.0转型基本无可阻挡,今年下半年要正式发布了,它的出现让大家知识体系都
要更新了。Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.0的核心是YARN,它的
诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm
YARN介绍
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-ya
Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-... 阅读全帖
k***r
发帖数: 4260
28
来自主题: Java版 - Cloud computing
偶没有专门研究过,不好意思。一般是碰到问题就想个解决办法。
偶估计这个可能没有固定的做法。
Lotus Notes/Domino的数据库不是relational的。有点像现在的search engine
的index。很容易扩展。gg的bigtable意思差不多
g*****g
发帖数: 34805
29
DB is also in the cloud. Google app engine has JDO and JPA interfaces
and they use bigtable to back it up. Amazon E2 allows you to run a
mysql on the virtual host, or you can use their S3 as storage.
o**1
发帖数: 6383
30
google app engine 用的是bigtable, 不是传统的 relational 数据库,属于NoSQL.
Amazon的云计算用的是 SimpleDB 也属于NoSql的一种。
NoSql 数据库应该会逐渐流行起来,老的 Relational database 也该退休了,ORM 问
题搞的程序员很不爽。
g*****g
发帖数: 34805
31
用啥数据库跟cloud不cloud关系不大,主要看需求,成本。
Amazon EC2就是一堆虚拟的linux box,爱装啥都行。
免费的数据库当然比Oracle常见多了。
另外一种选择是用服务商提供的虚拟数据库,比如Google bigtable
Amazon S3,更像是JDO的一种实现。
linux跑啥语言都行,当然有的平台不是什么都支持。

oracle
z******a
发帖数: 64
32
bigtable s3都不算是数据库,只能说是存储。amazon的rdbms是rds,google也有自己
的cloud sql service。如果用ec2又不想花钱用rds,就自己在ec2 instance上装mysql
。用什么数据库根据你的网站规模和需求,你要大规模企业级的一般就是oracle,sql
server,如果就一般的网站mysql就差不多了。
S*******h
发帖数: 7021
33
来自主题: Java版 - 请问Hadoop要怎么学?
之前有网友推荐这些. 我还没去仔细看过 你参考看看吧 有用的话上来吱一声
---------
发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标 题: hadoop面试和学习总结
发信站: BBS 未名空间站 (Thu Mar 1 04:05:10 2012, 美东)
随著大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, B... 阅读全帖
w**z
发帖数: 8232
34
来自主题: Java版 - BIgData对job market的影响?
Cassandra is the combination of Dynamo and Google bigtable , easier config
than hbase, no single point of failure. but integration with Hadoop is no
good.
r*******k
发帖数: 44
35
来自主题: Java版 - BIgData对job market的影响?
我现在不做hbase,只是恰巧在big data 和open source 领域,因为我们的项目有这些
需求,所以任何项目都会涉及一点。
兄弟,我真要吐血了。(我对你没有个人意见,我也不知你是谁,如果之前说话不太
nice 请见谅。)
big data 领域,我们一般提 ad-hoc query 时,与知相对的是所谓的 batch
processing。batch processing 一般指run mapreduce job 或其他job比如scan 一个
巨大的文件,无论一个小时还是一晚上得到结果, doesn't matter. ad-hoc 相对的,
指随机的查询,很快的得到结果(<1sec),比如query user data by user id. 对于单
机DB小数据来说,这根本不是问题,但对于distributed file system, 我们需要相应
的技术来实现这种需求,所以才有bigtable 以及后来者。举个例子,在100TB数据中找
到一个user id,极相应记录,只有nosql 可以在1秒内办到。
given a key, to get the valu... 阅读全帖
t*******e
发帖数: 684
36
来自主题: Java版 - Java Map 存 1 million 记录
Figure out an algorithm to evenly distribute all the keys into 100 slots (
Maps). Each slot contains 10K records. Consistent Hash in BigTable might
give you some inspiration.
s*********t
发帖数: 1663
37
来自主题: Programming版 - aspx网页现在到底流行不? (转载)
according to Paul Buchheit, creator of gmail, its backend is written in both
c++ and java. the vital piece bigtable is also c++, as well as their gfs.
As for applications, maybe java is heavy, but I go with python always.

Java
N******K
发帖数: 10202
38
fastDFS 就是文件存储 简单易用 国内有人用来做网盘应用 或者相册 不是bigtable
那种东西

XXX
c****e
发帖数: 1453
39
瞎扯的,bing怎么列个sql server,google却写个bigtable.而且google写了c++,bing是
asp.net. Bing如果不用c++写后台能慢死个人。
c******o
发帖数: 1277
40
来自主题: Programming版 - 你们有没有一种感觉,其实big data
from what I know the recent BD wave begin from G/F/T (Google BigTable is the
root of many NoSQL)
Look at how they used it,
Google => web indexing, "My Search History", Google Earth, Google Code
hosting, Orkut, YouTube, and Gmail
Facebook => Inbox Search, Instagram unit, primary big data analytical store,
messages and monitoring (still mainly use sharded MySQL though, with a lot
of optimization and not really use a lot of relational logic)
Twitter =>Analytical data (like Facebook, still mostly... 阅读全帖
c********l
发帖数: 8138
41
来自主题: Programming版 - 美国的IT界才是知识产权小偷!
哈哈哈哈,你说得太对了
百度成立时间晚于Google,就意味着百度是嫖窃Google的?
再说了,我给你几个million,或者billion,
你能去把Google的搜索源代码给偷出来吗?
哈哈哈哈
事实上是Google在展示给外人的,除了bigtable(已经被证实百度不用)外
就是一个小学生都写得出来的search box
根本不存在百度嫖窃Google的说法
“百度嫖窃Google”这种谎言,破绽太大。
n****1
发帖数: 1136
42
来自主题: Programming版 - 我来说说go的目标对手吧
google的map-reduce是C++写的,这个是吃饭家伙,所以代码再老也不会换hadoop
我怀疑他们要用go来逐步重写mapreduce/bigtable等恐龙级程序
m***t
发帖数: 254
43
来自主题: Programming版 - 我来说说在互联网领域的c++和java
某paypal早期员工告诉我, paypal开始的时候用的是c++, compile成一个大.so
deploy上去,因为不断加功能, 到后来这个.so几个G大, 这还是二十一世纪的前几年
的事情, 后来很多很多年以后paypal慢慢把service改成java了。 后来这位老兄自己
做网站, 坚决走python了。
amazon jeff bezos 强推java service的故事大家都知道了。
yahoo开始的时候也是用c++写cgi网页, 后来一个聪明人rasmus lerdorf 写了一
堆模版, 包装到一起叫php。 所以web layer慢慢过度到php了。 data layer换java是
这几年的事情。
google 早期data layer也是c++的, 看看gfs, bigtable 就知道了。
fb倒是java用的比较早。 linkedin的data layer也是java。
n***i
发帖数: 777
44
来自主题: Programming版 - 被Google 的recruiter搭讪了
不用紧张也不用激动,这种recuiter email 像spam一样非常多。如果要面之前联系他
就好了,也不用他让你面 你就先在去。
Google 最前端用 javascript (angularJS正逐渐被使用),server 如果是java的话
用apps framework (Google 内部一个infrastructure),后端连google其他service
,bigtable,database 什么的

me
s*****t
发帖数: 89
45
来自主题: Programming版 - 学习C++是浪费你的生命
BigTable, a large-scale semi-structured storage system.
MapReduce a system for large-scale data processing applications.
Google Brain a system for large-scale artificial neural networks
这三个的确配得上影响深远这个评价(虽然对最后一个不是很了解)
f*******t
发帖数: 7549
46
来自主题: Programming版 - 再请教几个HBase的问题
1.row key是byte[],不管你里面想写什么,最终都要转成它。
2.可以,scan.setStartRow(),scan.setStopRow()
3.hbase以及所有BigTable衍生数据库性能最差的操作是random get,二分查找一个
keyvalue复杂度是O(logN)。数据大了hbase的block cache效率还是不够高。实际应用
中请尽量多使用scan,避免random get,实在不行可能得上memcache和其它优化。另外
hbase会对邻近的数据编码以节省存储空间,random get在读取每个keyvalue的时候都
要解码整个block,性能损失很大。
4和5是同一个问题。每个client的htable.multiput会把不同region的数据分开提交给
对应的服务器。这样如果有多个client,各服务器的负载更平均,对hbase cluster的
整体性能肯定有帮助。
6.你想问的是分成很多个小段的scan吗?scan的时候server会对每个client生成
scanner object,读取的时候互相之间可能有lock contenti... 阅读全帖
p*****2
发帖数: 21240
47
对于一个key吧?C*应该可以。
首页 上页 1 2 3 4 下页 末页 (共4页)