第9页 - 关于分布式的讨论汇总 - 话题女王

全部话题 - 话题: 分布式

y***5
发帖数: 21

来自主题: JobHunting版 - F/L/A/G/T/Groupon/Box 贴面经报offer 回报本版

结果：面试7家，5 onsite，3 offer。
面经：
Amazon：2轮电面，5轮onsite。2天后offer，最后decline，非常nice的manager（拿到
A offer时还在面其它公司，比较大度地祝我good luck），拒绝的时候感情上比较难受。
电面1，设计parking lot
2， intersection of sorted int array; design data structure for a phone
contact book
onsite 1: find biggest int in array,
find K biggest int in array(tradeoff between many methods),
implement using heap
2: print modification path from "head" to "tail", given isWord()
api and every time can modify 1 word in the strin... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 别报喜不报忧，我再说说改行CS的难处

我倒是觉得很多东西没啥变化
区别只是在于不停地拓宽新的领域
举个例子
主机很多年以前就存在
后来分布式操作系统大发展
新增了很多分布式操作系统也就是server
但是主机还是依旧存在，因为有些东西server做不了
但是server拓宽了挨踢的应用，原先用不起主机的
都开始购买server，然后应用server，这个时期的存储软件就是db了
现在web大发展，则是进一步拓宽了应用
就存储软件而言，nosql很好地降低了成本，并且拓宽了应用
但是db还是依旧存在，因为有些东西nosql不顶用
最典型的就是涉及到金钱的部分，就不宜上nosql，而应该坚决回到db上去
我本人对于动不动就说要替换的想法比较反感
这么多年了，主机和db还依旧存在，我相信十年以后这两个还会存在
只是说nosql会开拓出新的领域，三者并存才是将来的主流

d**e
发帖数: 6098

来自主题: JobHunting版 - [合集] CS找工作的要点

☆─────────────────────────────────────☆
haiguibu (haiguibu) 于 (Mon Jun 17 12:56:48 2013, 美东) 提到:
其实就一个：你的工作一定要为公司的profit center服务。一般来说公司分成两部分
：profit center，和cost center。传统公司的IT很多就是cost center。比如说淫力
资源的内部开发。比如说ERP的某插件。Cost center里各位老大的唯一责任就是帮公司
省钱，虽然CIO们总是打着提高生产力的旗号。这种部门的项目难得精彩，预算难得充
裕，而各位老大的工作也难得稳定。Profit center就不一样了。那是为公司赚钱的部
门，流着R&D的血液，充斥着冒险的荷尔蒙，享受大笔预算。之所以硅谷的工作精彩，
就在于IT部门对硅公的公司们来说基本上是profit center，或者就算是所谓的cost
center，多少也是变相的profit center。比如Facebook，他们的infrastructure team
貌似干着省钱的行当。但faceb... 阅读全帖

j********x
发帖数: 2330

来自主题: JobHunting版 - 真心请教码工工作以后如何积累“有价值的经验”不至被淘汰并帮助职业发展？

难得在无数consumer web公司挣扎的时候还能讲出尽量做consumer。。。
真是误人子弟
技术上未来5年都是分布式系统的天下，现在无论前台后台都是水平扩展，靠的是拼系
统规模，分布式系统是关键技能。enterprise永远都是重要一环，consumer影响力再大
，钱都没enterprise来的快。。。而且面向enterprise的startup 从来都比consumer的
多。。。

s******c
发帖数: 1920

来自主题: JobHunting版 - Go 有人知道吗？

Golang是Google主推的很新野很有前途的一门语言,
特点是高并发性和非常方便的支持异步编程(比如实现event-driven)
非常适合搭建分布式系统.
一个信号是: CMU和MIT的本科分布式系统课已经开始使用Go教学

n*******p
发帖数: 72

来自主题: JobHunting版 - T和T家面经，都被拒。

面了Twitter和Turn，两家都已被拒。分享面经，祝大家好运。
Twitter：
1 sort linkedlist。老中大哥放水，非常感谢。
2 一个2D matrix,每个cell都是一个灯泡，0表示灭，1表示亮，当一个灯泡发生变化的
时候，他临近的灯泡都要变化，问给你一个board configuration，让你判断是否可以
通过亮灭使得所有的灯泡都熄灭。这个题面试的哥们说他是朋友问他的，他也没做出来
，让我和他一起做，看能做出来不。结果是大体有了一个solution，但是不知道对不
对。
3 分布式环境中设计一个lock，使得做广告的时候，spending不会超过budget。
rotated sorted array中找最小的元素，返回index。第一个基本上就是设计
distributed cache的lock。这个老中大哥貌似很不友好，给了你个方案，他最后也没
说啥，说换个题吧。问他你们实际中怎么做解决了没，他说yes and no。做题的时候
他在下班玩手机。
4 powerset。 maximum subarray。
5 设计一个系统，用来显示某个时间，... 阅读全帖

A***o
发帖数: 358

来自主题: JobHunting版 - 求大牛帮我鉴定一下oracle的这个组值不值的据掉apple的offer

听zhaoce大牛的没错。

apple的东西对真正的分布式来说，几乎没用也就是icloud用了点j2ee，那又怎样？还
不如银行用得多光会java是远远不够的，如果想做分布式java只是comp101的东西.....
...

z****e
发帖数: 54598

来自主题: JobHunting版 - twitter这种网站，实现起来的难点在哪？我怎么找不到

做twitter那帮人他们自己都没想到能做这么大
一开始只是小打小闹的，就有点像当年的ytht.net
最早只是用来给北大物理系内部沟通的工具，后来人数暴涨
不过这个东西来得快去得也快，去年还火的公司，今年就开始裁员了
米犹吹泡泡吹fb，顺便带动了twitter
从这点上看，将来有人也一夜成名，我觉得有可能
大学里老师都是鼓励学生去尝试制作一个twitter出来
作为练习，同时也鼓励学生创业
技术上，社交网站不存在难点，同等用户量下，社交网站技术难度属于最低一层
电商网站则属于精度要求比较高的一层，大量卷入lock和transaction
which大量实用了互斥锁，事务等机制，导致整个分布式应用不太容易scale out
给学生布置作业都喜欢用twitter，因为简单，学生只需要对付单纯的分布式问题就好了

求。

z****e
发帖数: 54598

来自主题: JobHunting版 - 今天的一道面试题差点跟面试官吵起来。。。

嗯嗯
我从来都认为分布式搞real time是一个很扯蛋的东西
主要的latency都在层与层的io上，那操作比内存操作慢了很多
硬盘操作介于两者之间，但是比起内存还是慢很多
单机和分布式还是不太一样

g*****g
发帖数: 34805

来自主题: JobHunting版 - 很多公司用github做source control么？跟屎一样

你跟我老装逼有用吗？git的branch不是拷贝，更像一个tag，你连基本概念都错了，还
跟我装到底。
我们整个公司就一个产品，文化又比较开放，自然允许team直接互相check in, check
out，无非需要过一下code review. 多个perforce不是不行，但是没有stash和github
这样的高一层组织架构，不利于
合作。一个perforce是退而求其次的办法。自然性能有问题，自然要往git上转。
perforce都不行，svn比perforce更慢。
分布式自然有分布式的理由，只有像你这样所有代码都由一个team完全控制，没有分布
式的需求，team又小的时候，才会觉得别人是奇葩。一句话，少见多怪。

build

z****e
发帖数: 54598

来自主题: JobHunting版 - 很多公司用github做source control么？跟屎一样

都激动了，消消火
他说的其实也没有错
分布式事务处理，一个比较经典的反例就是version control的时候
出现了conflicts，不宜用自动化处理，一般分布式事务主要用来对付data
大多数时候，代码管理能分就分了，大牛你当年在o的时候
肯定也是这样，不过现在startup了，所以自由度变大了也正常
时代在变，适用的环境也不一样，不能说哪个一定是错的

z****e
发帖数: 54598

来自主题: JobHunting版 - 开发JDK的转hadoop和机器学习靠铺吗

ml起步初期就是non parametric statistics
我觉得搞big data，对于数学或者确切点说就是统计的掌握程度
决定了你今后能走多远，80％取决于此，剩下20％取决于你对于分布式的了解
主要是优化，统计能从无到有搞出东西来，这占去了80％的工作
剩下分布式算法的优化，大概是20％左右，不起决定性因素
就我个人感觉，数学好的人真的是太多了

z*******3
发帖数: 13709

来自主题: JobHunting版 - 开发JDK的转hadoop和机器学习靠铺吗

java几乎所有的系统都是分布式系统
rpc就是java做得最好，其他语言都不太行
rmi出来之后替代了corba这些老旧玩意
不过现在都web service了，局面稍微有些改变
不同系统集成变得容易起来，cloud什么也都是大规模分布式系统
不仅仅只有hadoop是，hadoop只负责处理数据层，其他的不管
web什么都不能用hadoop，big data我觉得最关键的不是big
而是unstructured，从无意义到有意义最重要，其他的其实不起关键作用
关于big data，我觉得datasci那个版不错，版主做的说的都很专业
虽然人不多，但是回复都很有质量

z*******3
发帖数: 13709

来自主题: JobHunting版 - 请教一些面试口水题

你光说可以这样做，效率高，那这像是文科生说的
人家肯定不买帐，而且严格说来还是有点问题
传统db一样可以做到分布式
而且db查起来还更快，因为db的数据本身更为工整，index也多
integration做得好的话，找起来快多了，但是一般db写起来消耗资源比较多
而且db里面有大量用户定义的transaction，容灾处理机制write ahead log这些
据说这些东西占去了日常90％的工作，这样做的结果就是一般db要错，数据要丢失
不太容易，所以db中的数据都非常精准
但是代价就是写起来消耗资源就多，要经过各种处理，数据要层层包装解包装等等
而且不是说做不到分布式，而是做到比较麻烦
因为要保证节点的数据是consistent的，有大量工作要自己去实现
hdfs直接dump文件到硬盘上，然后replica，除了namenode以外，不搞transaction
也不负责灾难备份，相比之下写的时候快多了
适合web这种大量垃圾数据同时涌入时候用
读的时候，node如果fail掉的话，hdfs有checksum
所以少量的nodes挂掉，不影响系统本身的健康
chaos monkey

z****e
发帖数: 54598

来自主题: JobHunting版 - 求教企业IT转互联网，需要恶补哪方面？

jee是经典的分布式架构
所有的分布式几乎都在这个基础之上延伸发展而来
一度jee还打算要把cloud整个放进去
后来中小企业和开源反对声音太大而作罢
工作经验不沾边？wwzz和lilipup还有goodbug什么都是做这个出身的
你居然说不沾边？哎
只能说学得太僵化，对架构的理解不深入，知道几个hello world就算了
没有对基本原理有所了解
实在不懂，那就先转core java吧

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spar... 阅读全帖

s******c
发帖数: 1920

来自主题: JobHunting版 - G家的人水平并不高，hiring bar高其实是个噱头

别扯了装nb指点江山说经典一般般只能是暴露自己水平。
学术上说，要不是三架马车扭转了研究分布式系统的方向。 sosp和osdi都已经死了。
工业上说，山寨三驾马车的Hadoop都做成多大的market了，你还当鸵鸟呢
另外别躲啊说几个2005年之后的比三驾马车影响力大的分布式系统或者paper也好啊？

野。

s******c
发帖数: 1920

来自主题: JobHunting版 - G家的人水平并不高，hiring bar高其实是个噱头

n***t
发帖数: 76

来自主题: JobHunting版 - 问两个大数据字符串算法问题和一个普通回文算法题

1.有个很大很大的文件，每一行是一句话。有可能有重复的话。
如何设计一种算法，能达到如下目的
（1）找出只出现一次的句子
（2）找出类似的句子。（类似的定义是：两个句子只相差一个单词但是相同的单词
顺序需要一样。比如"I love you" 和 "I love", "I love him", "I love you two"
都可以算作是类似的句子）
题目并没有说需要分布式算法还是单机算法。
2. 有很多很大的文件，文件中每一行是一个正整数。所有文件中，数字的总
数量是Y。所有这些数字的数值范围是[1,X]，可能有重复。（换句话说，如果每一
个数字都不一样的话那么X==Y，但是实际情况可能是X接近于Y）
如何设计分布式算法，找到最小的没有出现的数？
3. 给一个字符串S，如何在S的前端加最少字符使得S成为一个回文？只能在前端加，不
能在中间或者后端加。

B**********2
发帖数: 923

来自主题: JobHunting版 - 问两个大数据字符串算法问题和一个普通回文算法题

第三个题楼主不是说分布式么。
每个计算单元假设内存极限是 Z, 则一共需要 X/Z = N个
把 X 分为N段，每段用一个单元来查就行了
bitmap是位表，C++一个标准Template
这样做不用排序，过一遍就行了
排序基于比较时间是O(N logN), 这题的意思本来就是N很大。
既然分布式了，就可以空间换时间了

H******d
发帖数: 2

来自主题: JobHunting版 - 华为招聘：文件系统首席架构师

代友发帖，请直接email下面的联系人。谢谢！
工作地点:
美国硅谷或中国成都、北京、上海
Santa Clara, CA,USA OR Beijing, Chengdu,Shanghai China
文件系统首席架构师
Job Description
* 岗位职责:
- 文件系统架构策略与规划第一责任人。能够针对本领域业务需求提出商业价值和技术
竞争力的定义和判断。
- 文件系统架构设计具体执行的第一责任人。负责架构高层设计和实现分析。
- 领域内架构维护、评审和技术方案裁决。
* 岗位要求:
－　有至少10年以上存储领域工作经验，主持过1个以上NAS产品或集群文件系统项目的
架构设计，有世界知名存储厂家或著名文件系统的架设经验者优先
－　深入掌握集群文件系统的关键技术及实现，包括元数据组织和集群、数据组织及跨
节点数据冗余、分布式锁、分布式事务、集群管理和节点间通信、快照、远程复制、分
布式日志等
－　熟悉业界一些著名的文件系统的技术实现，包括WafL、ZFS、Ocfs2、WafL、lustre
、CFS、GPFS、Stornext、Ceph等
－　对业界新技术趋势... 阅读全帖

f***t
发帖数: 97

来自主题: JobHunting版 - 阿里杭州招人，可内推

组里缺人，希望尽快招到
1）后台java开发
2）前端开发
3） DATA SCIENTIST
职位属于集团安全部。具体职位描述看下方介绍。待遇取决于你能拿到的评级，绝对有
竞争力
目前不招intern。
有意者请发简历到 yidou.yhl艾特alibaba-inc点抗母，我会内推. 全程远程面试，无
需回国onsite。
有疑问请发邮件，不要站内信。
-------------------------
数据挖掘工程师
岗位描述:
1、深入了解淘宝生态系统的业务模式以及风险问题，根据淘宝用户和ISV数据，挖掘有
关破坏生态系统长久发展的违规行为和安全事件。
2、利用阿里生态系统相关的ISV属性和行为数据，评估ISV的诚信状况和风险状况。
3、将分析和挖掘结果转化成业务规则并跟进落实，最终部署在决策系统中。
4、完成各类分析报告
岗位要求:
1、本科及以上学历，数学、统计学或计算机等理科教育背景。
2、熟练使用SAS、Clementine等分析挖掘软件
3、满足以下条件（之一）者优先考虑：
a. 精通数据挖掘算法
b. 熟悉文本挖掘算法，有文本挖掘或分析项目经验
c. 熟悉Hado... 阅读全帖

s*******m
发帖数: 228

来自主题: JobHunting版 - 继续问L家题目

如何设计分布式inverted index
分布式快烦死了

s*******m
发帖数: 228

来自主题: JobHunting版 - 报个L家面经，攒个人品

需要一个ID generator的服务器。
但如果所有的app server 都去调用这个服务，load太大，问如何解决。
我想了个分布式，大哥说分布式需要考虑sync的问题，保证不产生一样的ID

a********5
发帖数: 1631

来自主题: JobHunting版 - 子弹已打光 LOSER来点面经

去年年末面到最近，子弹已打光。
恶心事太多，一直没调整状态，感觉自己越来越笨，本命年过了，运气也很差。
想去的几家全跪，当时犹犹豫豫没去的已经发了财，买股票赔钱，哎，不散发负能量了
，直接来面经吧，记得多少说多少。
FB：电面WORD LADDER。ONSITE 三轮LEETCODE原题记不住了，一道区间合并，一道最优
化任务调度带FOLLOW UP，系统设计是设计2ND DEGREE CONNECTION。加面ONSITE是矩阵
按对角线Z型输出。
写白板，需要BUG FREE。基本每轮都要撸2题以上。加面告诉我是BEHAVIOR没TECH 发着
烧去了，结果是标准的MANAGER面，跪。
U：电面1：不记得了。电面2：伪OOD，设计扑克牌，不告诉你具体玩什么，就设计一
套扑克牌的类。写了个洗牌和抓牌。
ONSITE: 1. 写程序爬有哪些英文单词是15世纪还在用但是16世纪不用了的，DATASET自
己找。
2. bloom filter。讨论哪些运用CASE，实现。
3. 设计：原先系统跑在旧数据库A上，现在要迁移到新数据库B上，怎么做。+算法，一
个日志给定每个用户登入登出时... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 问一道题，system design google docs 如何防止conflict

这个就是分布式并发冲突的问题
你该扯蛋一下分布式lock
其实你把多线程的lock琢磨琢磨
然后套上网络这些，大概都能扯出点东西来

x*******9
发帖数: 138

来自主题: JobHunting版 - 这个题什么意识呀？

需求分析：
1. 根本需求：计算所有机器unique value的和
2. 特性：所有API是同步的 -> 大量请求会导致性能问题
3. 分布式系统 -> 负载均衡
4. 同时读写可以导致短时的数据不一致
解决方案：
1. 计算所有机器unique value的和
对于N台机器，我们将其分为sqrt(N)组，组内每一个元素都维护着本组机器值的和。每
次更新时，更新本组内所有机器。
这样读写的时间复杂度为O(sqrt(N))
2. 所有API是同步的，要尽量减少读写次数避免性能问题
同上
3. 分布式系统的负载均衡
对于整个系统，我们不可能只向一台机器发请求，所以load balancing是必须要考虑的。
我们可以选择每组中的任一台进行请求，把负载随机分到组只任一一台机器上。
4. 读写不一致
使用data versioning，对于每次修改记录一个时间戳，每次查询要根据同一组时间戳
来计算。这样可以保持数据的最终一致性。

z****e
发帖数: 54598

来自主题: JobHunting版 - 为何说银行的IT没前途？银行系统应该安全和业务做的很严谨吧？

的确算，银行的transaction量之大，非常challenging
但是，我得说，这些东西，银行自己一家的量
还是小，而且主要是大型主机在做，小型机服务器也有
但是主要是oracle db在做，这两个都没啥特别好的地方
跟分布式主流有些格格不入，因为核心不是分布式
而是db和大机，是sql和cobol，不是java，你进去就知道了
虽然还是写java，但是一堆的store procedure，你妹
但是做银行这个市场的公司，增长都比一般web公司要高很多
你自己看看两家公司，一家tableau，一家palantir
前者股价一直走得很好，现在迅速扩张，后者逼格一直很高
这两个都是做银行市场的，你要找这种给银行政府做产品的公司
这种公司比较有前途，因为银行政府需要，银行政府也有钱

w********3
发帖数: 2

来自主题: JobHunting版 - 腾讯招募云测试lead

云测试leader
负责腾讯云平台产品的测试管理工作，包括团队管理建设、参与云平台的全流程测试；
负责云平台产品整体的测试解决方案制定，推动研发团队开展单元测试和自测，借助
自动化测试和全流程的持续集成建设等方式提升质量和效率。
计算机本科及以上相关专业5年以上工作经验，有后台中间件以及云计算产品测试经验
者优先考虑；
精通kvm/xen虚拟化底层技术
具备极强的工作抗压能力，善于跨团队合作沟通和问题推动，工作富有激情、追求卓越
、有很丰富的人才培养和分享培训等能力；
具备优秀的项目管理和时间管理能力；
具备丰富的后台、协议、性能等测试经验；对于大型分布式系统有很丰富的容灾容错等
测试经验；
对云计算/云服务、分布式计算、数据库等有深刻架构理解和实践；
对自动化测试有深刻理解，具备丰富且成功的自动化测试实践经验；
对C++/Java/PHP/Python等开发语言有丰富的开发经历者优先；
具备丰富的测试解决方案制定、实施、推行经验；
具备极其丰富的测试分析和评估能力，可以带领团队非常敏锐的开展各种测试。
有意请联系Wendy: [email protected]
/* *... 阅读全帖

w****a
发帖数: 710

来自主题: JobHunting版 - 大家给推荐一个distributed system的书吧

Big data, principles and best practices of scalable realtime data systems
推荐这本书，storm的作者写的，以前是twitter的大牛，后来离职自己创业了。
这书大意是讲解如何以三层架构（batch layer, serving layer, speed layer) 来设
计一个支持near real time计算的分布式项目。
作者用一个简单的例子贯穿全书，有理论讲解也有部分内容的implementation。
全书仅仅300页，深入浅出，浅显易懂，即使对分布式没什么了解也可以无障碍阅读。
我几乎是一口气读完的。

w**z
发帖数: 8232

来自主题: JobHunting版 - 突然发现大家都不说flgt了

刚看了篇文章说，在大公司做螺丝钉，因为大公司的infrastruture 一般做的很好，除
非你是那个组的组员，其实你并没有对大型分布式系统有啥深刻了解。就像google 的
分布式系统确实牛掰，但大部分狗狗工程师对它的实现应该没有太多了解。

w**z
发帖数: 8232

来自主题: JobHunting版 - 突然发现大家都不说flgt了

a*****s
发帖数: 1121

来自主题: JobHunting版 - workday onsite面经，已挂

上周五的onsitee，只刷过三道leetcode题目，硬着头皮上了。免得是大数据platform
组SMTS，挂了，不知道谁黑的。
一个俄国小哥：
比较热情，先问了stack用linklist和array实现的优缺点，然后问了如何用二维数组
存储神经网络，比较耐心的引导类型，最后时间没有了，就只讨论了一下为什么这么做
。俺提出了一些可能的；
印度人：
上来很详细的问了以前的做的东西，HIVE如何转化成TEZ的，TEZ和MAPREDUCE的性能区
别，Slider提交任务需要那三个文件，我说就是三个json文件关于资源请求，可执行文
件等等，半年前作的实在记不清了，他解释说是metainfo.xml，和两个json文件，俺
就极力说服他，please检查slider的apache JIRA buglist，现在俺还有几个ticket要
解决，他说他会。没让写code
一个国人伯克利小伙子：
随便问了问以前的项目，然后让做题，给两个string，一个str1，一个str2，找出
str1里所有的str2
出现的第一个位置：比如ababab，ab那么返回数组［0，2，4］。先让写te... 阅读全帖

f*******r
发帖数: 976

来自主题: JobHunting版 - workday onsite面经，已挂

Move on. 祝LZ早日拿大offer

上周五的onsitee，只刷过三道leetcode题目，硬着头皮上了。免得是大数据platform
组SMTS，挂了，不知道谁黑的。
一个俄国小哥：
比较热情，先问了stack用linklist和array实现的优缺点，然后问了如何用二维数组
存储神经网络，比较耐心的引导类型，最后时间没有了，就只讨论了一下为什么这么做
。俺提出了一些可能的；
印度人：
上来很详细的问了以前的做的东西，HIVE如何转化成TEZ的，TEZ和MAPREDUCE的性能区
别，Slider提交任务需要那三个文件，我说就是三个json文件关于资源请求，可执行文
件等等，半年前作的实在记不清了，他解释说是metainfo.xml，和两个json文件，俺
就极力说服他，please检查slider的apache JIRA buglist，现在俺还有几个ticket要
解决，他说他会。没让写code
一个国人伯克利小伙子：
随便问了问以前的项目，然后让做题，给两个string，一个str1，一个str2，找出
str1里所有的str2
出现的第一个位置：比如ababa... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 12306最基本的一个问题，用什么数据結構存票？

论。
怎么单机？
铁道部现有的票储存，就必然是一个分布式的db系统
然后还有政府部门对于身份证的验证
银行自身的数据储存，这都是分布式
要单机才怪了，所以某人说得很好
没有必要跟上一代人辩论

z****e
发帖数: 54598

来自主题: JobHunting版 - 微软是不是在中国混得最好的IT公司？ (转载)

被IBM“绑架”的中国银行业
2013年07月22日 09:41 IT时报微博我有话说(608人参与)
工行6月23日多城ATM宕机 IBM被指为该事故负责
IT时报杨鑫倢
新闻事件
一场波及全国的宕机风波
6月23日上午，中国工商银行在全国多地的柜台、ATM、网银业务出现故障，用户报
告无法正常使用。故障持续至少近1个小时，波及北京、上海、广州、武汉、哈尔滨等
多个城市。
就此事件，工行的公开解释是由于“计算机系统升级原因造成业务办理缓慢”。
上周有媒体曝出一封发自工行信息科技部的内部通报，则将事件原因归咎于IT系统
供应者IBM。IBM内部人士徐向青(化名)向《IT时报》记者确认，这的确是IBM的问题，
DB2(IBM数据库平台)在测试环境下是没有问题的，但不知何故出现了错误，可能是由于
当天交易量过大，CPU超载发生故障。徐向青表示IBM之前也出现过类似情况。
另外有人质疑，出了故障为何不及时切换容灾备份系统？IT顾问accc分析称，这是
一个很常见的误解，银行容灾系统不会轻易启用整体切换，因为切换的成本非常高，非
极端情况(比如地震、机房着火等)不会进行切换。
... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 经常被人问到 Linux command Line

那是py比较慢
groovy加上map reduce可以很快
而且算法上显然是google发明的算法要快
加上分布式的log是每一个node有自己的log
不可能让linux去curl
以后就是查log也要做成分布式系统了
随着nodes数量的增加，依赖人手工去做这些事的可能性越来越低了
内部系统也要建设，而且现在很多公司的build都是ci的mvn build
check in之后，jenkins马上build，log直接显示在web page上
也不需要用linux command，会用浏览器就行了
如果build fail才会发邮件通知，成功的话，就不管了
看到这么多人这么多公司的内部系统还如此落后，我感到痛心疾首啊
只会linux command line的人应该属于cs学得不好的那种
因为jvm和vert.x都有自己的command和shell
熟悉并了解这些command和shell才算是学得不错的那种

发帖数: 1

来自主题: JobHunting版 - 【工作机会】阿里-蚂蚁金服-数据挖掘岗位（杭州/上海）

JD 如下：
期望层级：P7，P8
我们提供真实的交易数据，上亿级别消费者的商业行为，数十万级外部商户真
实数据；我们面对的是动态、复杂、多变的欺诈风险；我们不仅利用分布式的
计算引擎，进行离线算法实施，也会面对实时同步的在线模型挑战。如果你对
这些有兴趣、如果你致力于用数据产生价值、如果你想让支付的体验更加便捷
与安全，请加入我们。
岗位描述：
1与风险策略团队紧密合作，通过分析/挖掘数据，探索业务机会点并能贡献自
己对业务的独特见解；
2 基于历史风险和专家经验，通过有监督和无监督的方法结合，建立针对盗用
欺诈行为的预测模型，并且持续优化；
3 平衡体验的便捷和安全，通过优化理论和方法，设计并实施风险-收益最优化
的决策；
该职位可以base杭州，上海；
岗位要求：
1 计算机，数学，统计，金融等相关专业的硕士或以上学历；
2 3年以上数据挖掘或者机器学习相关工作经验；
3熟练掌握机器学习算法（或者对于最优化理论和方法有所研究和实践），熟练
运用SQL、R、Python等工具；
4突出的分析问题和解决问题能力，自我驱动，并且具备较强的学习能力、创新
应用能力及沟通协调能力
5拥有分... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - [转]腾讯云计算全球华人求贤 (转载)

【以下文字转载自 Returnee 讨论区】
发信人: jason2016 (), 信区: Returnee
标题: [转]腾讯云计算全球华人求贤
发信站: BBS 未名空间站 (Mon Jul 25 03:11:38 2016, 美东)
以下为重要紧急职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case
by case！
资深岗位关键词
分布式存储研发专家块存储、冷数据存储、数据库存储，集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家虚拟化、云计算容器，微服务（mangodb/redis/cassandra）
nosql存储
网络运维专家机房网络、VPC、负载均衡、trouble shooting
资深研发架构师网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/I... 阅读全帖

r***u
发帖数: 83

来自主题: JobHunting版 - 现在计算机领域都啥方向好找工作啊

分布式系统还好吧， hadoop也算分布式计算啊。

u***n
发帖数: 21026

来自主题: JobHunting版 - 一个design题

假设每个分布式里面都是排序的，每个分布式的前1000个拿出来做排序，肯定。找到前
1000个

发帖数: 1

来自主题: JobHunting版 - google 18 summer intern 刚进池子，求好人帮忙捞一下，感激

昨天刚收到recuriter发来的邮件说过了hc，进入team match的阶段，真的十分希望
能赶快完成这个阶段，希望有好人能帮忙捞一下，真的感激不尽, 这是我的邮箱 :
[email protected]
这是我的简历
https://www.dropbox.com/s/vkptace2zcqj5b7/Resume_Jianwei%20Jin.pdf?dl=0
我再简单介绍下我的经历：
我的经历主要在web development方面，本科大四的时候在SAP实习过5个月左右，做的
也是web后台，主要是用的spring framework开发的，也写过一些前端，用的是html，
css， jQuery。
自己做过的一些全栈的项目和后台的项目，全栈项目做的是mean project(MongoDB,
express.js, node.js, Angular 4), 还做过用firebase的一个购物网站，用的是
firebase数据库实时的特性，主动向客户端各个用到该数据的地方publish更新的数据
。后台的项目用的是jEE，spring framework 和 ... 阅读全帖

w*********1
发帖数: 40

来自主题: JobMarket版 - 蚂蚁金服招人

Special Alibaba recruitment meeting in Silicon Valley in May, job in
Hangzhou/ Shanghai. Resumes from anyone thinking about returning to China
for career development are welcomed.
Alibaba Ant Financial will hold the special recruitment meeting for high-end
technology positions in Silicon Valley in May (specific time and place to
be confirmed). The department open to recruitment this time is Ant Financial
Internal Business Division.
Ant Financial International Business
Aiming to be a globalized I... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 平安大数据部招聘数据挖掘工程师

【1. 资深数据挖掘工程师/算法工程师（深圳/北京）】
岗位职责：
1、构建互联网医疗健康/互联网金融项目的机器学习系统，包括模型设计和实施。
2、参与数据挖掘体系和平台建设，为数据方案的实施提供便捷的工具和系统支持。
3、使用机器学习、数据分析相关技术，分析业务趋势和商机，推动公司业务发展。
4、负责机器学习在业务系统平台应用的搭建和迭代；
任职要求：
1、有丰富的机器学习算法设计及工程化经验，熟悉Python/R等语言，熟悉Hadoop/
Spark平台上的机器学习算法应用。
2、对机器学习（数据挖掘）算法有比较全面的认识和理解，熟悉并熟练应用常用机器
学习算法。
【2. Java后台开发工程师（仅深圳）】
岗位职责:
1、完成产品的功能性设计并参与核心代码（架构）的编写工作；
2、根据系统软件需求规格，进行系统设计文档编写；
3、参与基础组件,系统架构的设计与开发；
任职要求：
技术栈: Springmvc,Spring,Mybatis,Dubbo,Redis,Mysql,Solr,ActiveMQ,Zookeeper
1、Java基础扎实, 熟悉IO,集合,多线程, 对JVM... 阅读全帖

j****g
发帖数: 17

来自主题: JobMarket版 - 腾讯云计算全球华人求贤

职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case by case！
资深岗位关键词
分布式存储研发专家块存储、冷数据存储、数据库存储，集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家虚拟化、云计算容器，微服务（mangodb/redis/cassandra）
nosql存储
网络运维专家机房网络、VPC、负载均衡、trouble shooting
资深研发架构师网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/InnoDB/NoSql/DynamoDB/
AWS-S3
资深分布式存储专家 MangoDB/Redis/Cassandra等nosql存储
资深大数据工程专家 Spark/Flink/Hadoop/Yarn/Hive/Storm、开源、实时... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 2017中国卓越雇主— 深信服科技集团诚招海外博士

中国卓越雇主— 深信服科技集团博士招聘简章
一、公司简介
深信服公司是专注于云计算／虚拟化、网络安全领域的IT解决方案服务商，致力于
提供创新的IT基础设施云计算、网络安全建设解决方案，推出的众多产品中，其中安全
系列产品中国市场占有率第一，在2011年初，公司全面进入云计算、虚拟化行业，目前
多个云计算产品入围gartner魔力象限。
研发实力：
公司目前拥有3000多名员工，其中研发投入达1000人，每年销售收入的20%投入到研发
，在全球已设立深圳、北京、硅谷3大研发中心，专注云计算、网络安全领域，交付的
产品包含私有云、公有云、超融合、网络安全等解决方案。云计算和网络安全领域共有
6款产品进入到Gartner魔力象限，其中云计算领域2款产品。网络安全领域4款。
市场实力：
公司连续15年保持高速增长，年均增长率近50%，近10年的营收增长超过300倍。目前，
深信服在全球共设有55个直属分支机构，其中含国内地主要城市及美国、英国、香港、
马来西亚、泰国、印尼、新加坡等国家和地区。公司云计算和网络安全产品正在被 24
个国家部委、中国区域80%以上的世界500强、90%的... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 2017中国卓越雇主— 深信服科技集团诚招海外博士

发帖数: 1

来自主题: JobMarket版 - 【免费直播】BigDataEngineer行业解读与求职必知

资本寒冬
科技企业缩招
暑期实习招满在即
简历苍白的你机会在哪？
大数据行业蓬勃发展
1个小时
高级大数据工程师
为你全方位解读行业
带你终点冲刺
获取优质实习
1个小时，带你全方位解析Big Data行业环境、Big Data最新技术（Hadoop/Spark/
Storm/Kafka/Cassandra等）、硅谷一线公司大数据架构，助你明晰节奏、获取面试、
找到优质工作！
目标人群：
大数据爱好者，大数据工程初中级学者，对Big Data Engineer感兴趣的人群，希望找
到Big Data Engineer实习/全职的人群
讲座大纲：
【求职篇】
Big Data Engineer职位有多火（发展前景、薪资水平、市场需求）
Big Data Engineer实习怎么找（刷题、简历、时间节点）
Big Data Engineer实习做什么（职责、技能提升、Return Offer如何拿）
Big Data Engineer实习对于找全职的意义
3月底如何抓紧冲刺，找到优质实习
对正在这条道路上奋斗的朋友们的一些建议
【技术篇】
硅谷一线公司大数据架构（Big Data Infr... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 【免费直播】BigDataEngineer行业解读与求职必知

资本寒冬
科技企业缩招
暑期实习招满在即
简历苍白的你机会在哪？
大数据行业蓬勃发展
1个小时
高级大数据工程师
为你全方位解读行业
带你终点冲刺
获取优质实习
继前几年的疯狂扩招后，美国各大科技企业包括FLAG都在2017年紧急缩招，如何在美国
就业市场上，把握好求职时间节点，如何准备求职，如何提升背景，都变得极为关键。
随着大数据应用的爆发性增长，越来越多的公司开放Big Data Engineer的岗位。
1个小时，带你全方位解析Big Data行业环境、Big Data最新技术（Hadoop/Spark/
Storm/Kafka/Cassandra等）、硅谷一线公司大数据架构，助你明晰节奏、获取面试、
找到优质工作！
目标人群：
大数据爱好者，大数据工程初中级学者，对Big Data Engineer感兴趣的人群，希望找
到Big Data Engineer实习/全职的人群
讲座大纲：
【求职篇】
Big Data Engineer职位有多火（发展前景、薪资水平、市场需求）
Big Data Engineer实习怎么找（刷题、简历、时间节点）
Big Data Engineer... 阅读全帖

k**o
发帖数: 254

来自主题: JobMarket版 - 阿里云大数据交付团队海外招聘【欧洲专场】

岗位名称：
Data Scientist 数据科学家
岗位描述：
数据事业部是隶属于阿里云的核心数据部门，承载阿里大数据战略的使命。数据事业部
-飞天一部的数据引擎团队负责阿里公有云和私有云项目的落地实施，同时推动建立大
数据生态，是数据事业部核心的团队。
算法技术与能力是阿里云最核心的竞争力，我们的愿景是通过最前沿的算法技术，帮助
客户挖掘数据价值，激发数据活力，将算法技术与能力转化为各个行业的商业价值。希
望有志于长期从事数据挖掘、机器学习的同学加入到我们团队，成长为行业算法专家，
用算法改变世界。
工作职责：
1.负责企业级大数据应用项目的算法规划、数据挖掘和模型设计，涉及到的技术包括深
度学习、强化学习、人工智能、文本处理等。
2.能深入理解行业需求与痛点，引导客户，发现其业务问题，并通过算法和模型解决业
务问题
3.承担部分政企项目POC实施、项目落地实施等。
岗位要求：
1. 三年以上数据挖掘项目经验，熟悉常用的数据挖掘与机器学习技术，有分布式
数据挖掘的实际经验为佳；
2. 统计、数学、计算机科学和通信电子类的硕士或博士学位。扎实的理论基础进
行统计，... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天