由买买提看人间百态

topics

全部话题 - 话题: 分布式
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
z****e
发帖数: 54598
1
jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
整个计算机系统就是层层封装的结果
并行计算跟分布式计算是两回事
并行计算很多时候对于单机更有意义,共享内存这些
分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大
jvm是目前能找到的最好平台
其他语言要么效率比不过jvm,要么就是兼容性比不过java
hpc上的mpi这些到还真是用c比较多,物理系什么都很喜欢写pbsscript
然后提交hpc排队,执行后看结果,并行计算和分布式计算有一些共性和重叠
但是毕竟不是一个东西,不同的topics
从效率上说,效率提升不只比单线程的效率
是多线程,多进程的效率提升,能并行处理的部分越多,可以... 阅读全帖
N*****8
发帖数: 253
2
来自主题: JobHunting版 - [转] 阿里巴巴招聘 (转载)
【 以下文字转载自 Returnee 讨论区 】
发信人: Nicam08 (Nicam), 信区: Returnee
标 题: [转] 阿里巴巴招聘
发信站: BBS 未名空间站 (Wed Nov 23 13:57:21 2016, 美东)
Alibaba全球找华人技术牛人!!!
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘,欢迎
各位同胞们联系我
以下重要紧急职位必要要求:PHD毕业至少3年,Master毕业至少五年以上工作经验,年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="aa4e09109b929c9b9c9899999b9c99ea9b9c9984c9c5c7">[email protected]/* */ 微信:18616233163 QQ:2095226802
Base:杭州/硅谷圣马特奥职位
基础架构事业群-资深专家-kernel OS kernel,filesys... 阅读全帖

发帖数: 1
3
来自主题: JobHunting版 - Alibaba全球找华人技术牛人!!!
Alibaba全球找华人技术牛人!!!
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘,欢迎
各位同胞们联系我
以下重要紧急职位必要要求:PHD毕业至少3年,Master毕业至少五年以上工作经验,年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="92763128a3aaa4a3a4a0a1a1a3a4a1d2a3a4a1bcf1fdff">[email protected]/* */ 微信:18616233163 QQ:2095226802
Base:杭州/硅谷圣马特奥职位(越资深越好)
基础架构事业群-资深网络研发专家 网络研发,网络管理,网络工具,系统
软件开发,分布式系统, SDN
基础架构事业群-Machine Learning资深专家 IDC智能运维、Data Scientist、
Machine Learning、PUE
基础架构事业群-资深平台业务架构师 IDC智... 阅读全帖
f****4
发帖数: 1359
4
来自主题: Programming版 - 春运火车票2个方案比较
讨论设计方案,必须有个背景才有意义。这个卖春运火车票的网站就是个很不错的例子。
比较方案的时候,可行性是根本,都可行的情况下考虑成本。可行性里面需要考虑到
performance,availability,scalability,工期还有系统的复杂度。这些都是讨论的
基础,你不能简单的说“你这方案比scalability比不上分布式,比响应比不上硬实时
系统”。没有方案是完美的,我们现在只是在给定的案例下面讨论两个不同的实现。如
果背离这个约定,那就又成为毫无意义的口水帖了。
因为有些人根本不仔细看别人帖子,我把2个不同方案的实现,大家提及的疑问及解答
,按照我的理解复述一下,也请魏老师和goodbug指正。当然了,我主要复述一下魏老
师的方案,毕竟分布式的大家多少都了解一点。
主机配置,4个10G/s网卡,全双工80G/s,对CPUS没特殊要求,内存没提,不过现在服
务器上到90+CPUS,36+G内存也就是5万美金,魏老师声称1万的主机还算靠谱。
魏老师在后面的帖子针对availability的问题提到了hot standby server,3zone,多
hot standby ... 阅读全帖
f***y
发帖数: 4447
5
https://www.enmotech.com/web/detail/1/724/2.html
导读:日前,华为公司在京面向全球发布了人工智能原生(AI-Native)数据库GaussDB和
业界性能的分布式存储FusionStorage 8.0,将多年的AI技术和能力以及数据库经验融
入到新品,实现很多创新性突破,比如人工智能技术融入分布式数据库的全生命周期、
一套存储可同时支持块、文件、对象、HDFS协议等。
其中,最为标杆性的场景应用实属招商银行,在实践中:
华为GaussDB管理数据容量提升10倍,AZ内故障恢复速度提升30倍。以故障恢复为例,
GaussDB的RTO时间小于1秒,而其他厂商则需要30秒;
FusionStorage 8.0在招行,部署渠道接入、开发测试、VDI以及大数据系统,一套存储
替代原有4种存储设备,节省40%的TCO,业务上线速度提升9倍。其次,将人工智能技术
融入存储全生命周期管理,从资源规划、业务发放、系统调优、风险预测和故障定位等
方面实现智能运维管理,实现云上云下协同。再者,分布式存储性能业界第一,单节点
性能高达16.8万每秒读写速度(IO... 阅读全帖
m******3
发帖数: 975
6
来自主题: Military版 - 我观察了一下鸿蒙
我从网上观察了一下鸿蒙,还没有深入了解。
仅根据字面宣传信息,瞎说几句。
号称四大技术特点:
1.分布式架构首次用于终端OS,实现跨终端无缝协同体验
2. 确定时延引擎和高性能IPC技术实现系统天生流畅
3. 基于微内核架构重塑终端设备可信安全
4. 通过统一IDE支撑一次开发,多端部署,实现跨终端生态共享
2、3、4没有什么技术创新点,特点似乎体现在性能方面。
但是,如果没有显著的技术创新,为什么能实现这样的高性能,还需要进一步了解。
1中提到分布式架构,但不清楚是什么“架构”,以及这个架构与其它现有系统之间的
关系。
分布式处理和分布式操作系统是近30年来的研究热点,前一段时间的“云计算”等概念
,都属此范畴。
说实话,由于计算和应用的本身内在关联性,虽然现在分布式处理的成分在增加,大多
数应用本身实际上还是集中式,因而,集中式处理一直是各种平台的核心。分布式操作
系统和分布式处理一直雷声大雨点小。
实际上,我老个人认为,鸿蒙要想取得应用的成功,不应当过分强调鸿蒙是一个分布式
架构,而应当强调鸿蒙高度支持分布式架构。
过分强调“分布式架构”,加重了鸿蒙的科学实验和探索的色彩。
在网... 阅读全帖

发帖数: 1
7
鸿蒙并不是什么备胎,鸿蒙可能是安卓和iOS的掘墓人!
自鸿蒙操作系统发布以来,网上关于鸿蒙OS的讨论热度持续不减,然而对于华为面向开
发者的发布会上说的一大堆技术名词:低时延、微内核、可信安全、模块化解耦、可弹
性部署、跨生态共享、赋能、万物互联……大多数观众还是不明觉厉,所以鸿蒙操作系
统到底牛不牛逼?
今天,我们就来看看鸿蒙到底能干啥,以及它是如何做到的。简单的说,鸿蒙实现了两
点:
1、让从灯泡、门锁、音箱……到汽车、手表、电视、手机和电脑都能使用同一个操作
系统。
2、能让这些设备互为外设,自由组合,协同工作。
按官方说法,鸿蒙是基于微内核的全场景分布式OS。那个……微内核的全场景分布式OS
又是什么啊?
自鸿蒙操作系统发布以来,网上关于鸿蒙OS的讨论热度持续不减,然鹅普通观众对于华
为面向开发者的发布会上说的一大堆的技术名词:低时延、微内核、可信安全、模块化
解耦、可弹性部署、跨生态共享、赋能、万物互联……大多数观众还是不明觉厉,一脸
懵逼,这TM到底在说些啥,所以鸿蒙操作系统到底牛不牛逼?
先说结论:如果华为完全实现了开发者大会上说的那些特征,鸿蒙将会彻底改变目前的
软硬件... 阅读全帖
z****e
发帖数: 54598
8
靠谱
不过oo跟互联网还不是一个时代,互联网更靠后一些
oop很早就显现出了替代其他各种paradigms的架势
随之而来的是软件工程这个学科的兴起
然后逐步替换并淘汰掉c为代表的硬件/命令式编程
开始剥离出抽象的逻辑代码而非命令代码
最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
再然后lars bak等人根据strongtalk的经验
address了sun的一个项目组用c++用疯了的问题
这就是oak以及后来的java还有官方jvm hotspot的第一版
然后就是java瞄准了网络时代,sun提出了the network is the computer
java上各种socket等的编程也远比c什么容易很多,封装得更彻底
最早c/c++什么用corba,简直不是人用的
然后java在corba基础之上搞出了rmi
再后来是ejb,ejb就是分布式系统的一个典型应用
然后ejb太过于复杂,加上m$被一脚踢出了java阵营
所以迫不及待需要一个更高level的通信协议,这就... 阅读全帖
z****e
发帖数: 54598
9
靠谱
不过oo跟互联网还不是一个时代,互联网更靠后一些
oop很早就显现出了替代其他各种paradigms的架势
随之而来的是软件工程这个学科的兴起
然后逐步替换并淘汰掉c为代表的硬件/命令式编程
开始剥离出抽象的逻辑代码而非命令代码
最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
再然后lars bak等人根据strongtalk的经验
address了sun的一个项目组用c++用疯了的问题
这就是oak以及后来的java还有官方jvm hotspot的第一版
然后就是java瞄准了网络时代,sun提出了the network is the computer
java上各种socket等的编程也远比c什么容易很多,封装得更彻底
最早c/c++什么用corba,简直不是人用的
然后java在corba基础之上搞出了rmi
再后来是ejb,ejb就是分布式系统的一个典型应用
然后ejb太过于复杂,加上m$被一脚踢出了java阵营
所以迫不及待需要一个更高level的通信协议,这就... 阅读全帖
l******n
发帖数: 71
10
区块链(Blockchain)技术是当前金融科技(Fintech)领域的一项重要技术创新。作为分
布式记账(DLT)平台的核心技术,区块链被认为在金融、征信、物联网、经济贸易结算
、资产管理等众多领域都拥有广泛的应用前景。区块链技术自身尚处于快速发展的初级
阶段,现有区块链系统在设计和实现中利用了分布式系统、密码学、博弈论、网络协议
等诸多学科的知识。万维金融(iFinance)创始人丁海森说,区块链有可能成为历史上最
重要的民主化力量,因为不需要中央管理机构。
第一,区块链是否是骗局?
区块链是否是骗局?丁海森肯定地认为,区块链本身只是一种技术,不是什么骗局。当
然,有不少打着区块链技术骗钱的案例。同时,也又许多人认为,比特币(区块链世界
最大的项目)是一个骗局。区块链是用分布式数据库识别、传播和记载信息的智能化对
等网络, 也称为价值互联网。中本聪2008年于《比特币白皮书》中提出“区块链”概念
,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。问题是,
中本聪的真实身份长期不为外界所知,这是一个悬念。维基解密创始人阿桑奇(Julian
Assange)宣称中... 阅读全帖
w*********g
发帖数: 30882
11
来自主题: Military版 - 关于中国绝不能放弃光伏的问题
中国的太阳能发电之所以相对而言成本高,是因为电网建设没有跟上,同时煤炭发电并
没有征收环保费的缘故。如果火力发电厂征收二氧化硫的排污费和煤渣的处理费用,火
力发电的电力未必比太阳能发电便宜。
========================================
太阳能发电:走出分布式应用新路
中国经济新闻网 2012-08-22 10:52:39
国务院近日印发的《“十二五”国家战略性新兴产业发展规划》,对太阳能产业发
展进行了谋篇布局,要求各地和有关部门认真贯彻执行。尽管国内多晶硅产业发展正在
遭遇史上最为严寒的冬季,光热发电还没有实现商业化应用,但太阳能产业的发展还是
给人们带来许多美丽想像的空间!一些专家学者不约而同再次释放出唱荣太阳能产业的
信号。
实现装机目标降成本是关键
去年出台的“十二五”规划提出,“以西藏、内蒙古、甘肃、宁夏、青海、新疆、
云南等省区为重点,建成太阳能电站500万千瓦。”而战略性新兴产业发展规划提出,
“2015年,太阳能发电装机容量达到2100万千瓦以上。”战略性新兴产业发展规划提出
的目标是“十二五”规划目标的四倍以上!有关专家认为,要达... 阅读全帖
w*********g
发帖数: 30882
12
中国的太阳能发电之所以相对而言成本高,是因为电网建设没有跟上,同时煤炭发电并
没有征收环保费的缘故。如果火力发电厂征收二氧化硫的排污费和煤渣的处理费用,火
力发电的电力未必比太阳能发电便宜。
========================================
太阳能发电:走出分布式应用新路
中国经济新闻网 2012-08-22 10:52:39
国务院近日印发的《“十二五”国家战略性新兴产业发展规划》,对太阳能产业发
展进行了谋篇布局,要求各地和有关部门认真贯彻执行。尽管国内多晶硅产业发展正在
遭遇史上最为严寒的冬季,光热发电还没有实现商业化应用,但太阳能产业的发展还是
给人们带来许多美丽想像的空间!一些专家学者不约而同再次释放出唱荣太阳能产业的
信号。
实现装机目标降成本是关键
去年出台的“十二五”规划提出,“以西藏、内蒙古、甘肃、宁夏、青海、新疆、
云南等省区为重点,建成太阳能电站500万千瓦。”而战略性新兴产业发展规划提出,
“2015年,太阳能发电装机容量达到2100万千瓦以上。”战略性新兴产业发展规划提出
的目标是“十二五”规划目标的四倍以上!有关专家认为,要达... 阅读全帖
b*****d
发帖数: 61690
13
国务院五项举措救光伏产业 减干预禁地方保护
2012年12月27日04:48 时代周报 评论(2人参与)
本报记者 韩玮 发自上海
久旱逢春霖,12月19日,国务院总理温家宝主持召开国务院常务会议,研究并确定
了促进光伏产业健康发展的五项举措,包括加快产业结构调整和技术进步、规范产业发
展秩序、开拓国内光伏应用市场、完善支持政策以及充分发挥市场机制作用,减少政府
干预。
在光伏产业的寒冬,这套“组合拳”被市场寄予厚望。不过,多位受访学者认为,
正如当日大涨的光伏板块次日便下挫,后续细则若不尽快出台,“顶层设计”对行业的
激励效果将不会维持太久。
行业洗牌加速
即便是对光伏一无所知者如今也知道一个事实—这个行业产能过剩。而究竟到了何
种境地?中国太阳能学会的数字显示,2010年,太阳能电池的产量为10.67吉瓦,2011
年一跃达到21.17吉瓦。
“有关部门做过测算,国内市场每年最多消耗10吉瓦,如果加上出口,那么,中国
太阳能电池的生产规模控制在2010年的水平就够了。”按照秘书长孟宪淦对时代周报的
分析,中国目前的光伏产能,一半多“过剩”。
而solarzoom首席分析师蔡笃慰掌... 阅读全帖
I*3
发帖数: 7012
14
【 以下文字转载自 Go 讨论区 】
发信人: I23 (嘿嘿), 信区: Go
标 题: 读秒or读焦耳,看来整版就哥一明白人
发信站: BBS 未名空间站 (Thu Mar 10 18:00:45 2016, 美东)
看到阿发狗人模狗样地读秒,哥就一冷笑。
阿发狗两版本。单机版和分布式版。Nature上提到的分布式版用1202个CPU 和 176 个
GPU, 规模大概是单机版的25倍。为什么要有分布式版存在,就尼玛一个字快。当人一
个大脑在算一种变化时,狗的几千个CPU可以同时算几种,十几种,几十种变化。和樊
麾比的就是这种分布式版。和李世石比的分布式版规模只会大不会小。
分布式计算是scalable的,傻逼才相信1202个CPU 和 176 个GPU是阿发狗的极限。只是
这个规模已经是大到可以让阿发狗算到足够的深度和广度来赢一个樊麾。如果阿发狗有
2400个CPU 和 350 个GPU,哥相信它可以左右互博同时赢两个樊麾。所以速度对于阿发
狗来说,就是CPU/GPU的数目。看到阿发狗人模狗样地读秒,哥就一冷笑。看到李世石
在读秒时的擦汗,哥也一冷笑。你尼玛就一大脑一小脑,要和... 阅读全帖
D**********r
发帖数: 602
15
【 以下文字转载自 Go 讨论区 】
发信人: I23 (嘿嘿), 信区: Go
标 题: 读秒or读焦耳,看来整版就哥一明白人
发信站: BBS 未名空间站 (Thu Mar 10 18:00:45 2016, 美东)
看到阿发狗人模狗样地读秒,哥就一冷笑。
阿发狗两版本。单机版和分布式版。Nature上提到的分布式版用1202个CPU 和 176 个
GPU, 规模大概是单机版的25倍。为什么要有分布式版存在,就尼玛一个字快。当人一
个大脑在算一种变化时,狗的几千个CPU可以同时算几种,十几种,几十种变化。和樊
麾比的就是这种分布式版。和李世石比的分布式版规模只会大不会小。
分布式计算是scalable的,傻逼才相信1202个CPU 和 176 个GPU是阿发狗的极限。只是
这个规模已经是大到可以让阿发狗算到足够的深度和广度来赢一个樊麾。如果阿发狗有
2400个CPU 和 350 个GPU,哥相信它可以左右互博同时赢两个樊麾。所以速度对于阿发
狗来说,就是CPU/GPU的数目。看到阿发狗人模狗样地读秒,哥就一冷笑。看到李世石
在读秒时的擦汗,哥也一冷笑。你尼玛就一大脑一小脑,要和... 阅读全帖
z*******3
发帖数: 13709
16
来自主题: JobHunting版 - 请教一些面试口水题
ft
这真不是三言两语就能说得清楚的,只能非常泛泛地说一下
远远不够,对方深入问下去,你还是需要自己平常多看看it动态,积累一下
http://hadoop.apache.org/
hadoop现在演变成一堆产品的集合
这里面有file system,有db,有data warehouse,有business intelligence
有编程framework,还有framework的加强版,还有可视化工具,etc.
对方既然对比的是传统db,那重点显然是hdfs, hbase和cassandra这三个上
hdfs是file system,hadoop的核心之一
file system对比一般db,最大区别就是文件结构不那么一致
一般db存数据时候都经过了预处理,所以结构很清晰,有schema
而hdfs的数据则是文件,结构非常自由,没有或者有非常少的schema
这是最大的区别,然后在hdfs基础之上,有hbase这个数据库
hbase是cp系统,一般db是ac系统,区别就是cap理论,另外一个cassandra是ap系统
除了cap,hadoop还有各种分布式算法,分布式算法尤其需... 阅读全帖
T***I
发帖数: 372
17
国内某顶级电商公司计划在美国加州硅谷地区开设新的研发中心。现在计划下重金建立
团队。【请仔细阅读岗位描述和要求!】如果您符合条件并对以下的岗位有兴趣并且有
意图加入一个无限潜力的中国企业。
请发EMAIL 给 [email protected]
/* */
注明题目是:岗位编号### (一个人最多申请两个职位)
并且附上您的Resume (中英文皆可)
————————————————————
岗位:资深产品架构师资深产品经理
岗位编号: refer058
岗位描述
1, 熟悉北美互联网行情、电子商务市场,把握市场趋势并为公司的发展提供数据支
持和规划意见;
2, 具备很强的沟通能力、协调能力、市场洞察力和商业敏感度,对前瞻性产品进行
研究及可行性论证,对产品的商业收益、运营前景进行评估,主持产品架构规划设计;
3, 负责营销产品的竞争市场分析,制定营销产品的发展目标、策略和计划,对新产
品进行产品设计、产品运营及销售模式设计;
4, 独立完成产品原型设计、撰写需求说明书及用户手册等相关产品文档,协调产品
上线前的产品文档整理、商务推广、市场宣传等配合工作;
5, ... 阅读全帖
D*******r
发帖数: 2323
18
来自主题: Go版 - Google如此托大?
这段话应该是比较靠谱的,基本上说的也是nature里发表过的。nature文章里分布式对
单机的胜率好像是77%。
和樊麾比赛时就是用的分布式,那么看来这次比赛还是上的分布式。deepmind的测试数
据里有一个比对樊麾的分布式更强的分布式,两千多CPU的,估计这次会用那个。那个
分布式比对樊麾的分布式elo rating好要高一两百的样子,相当于现在柯洁和李石头之
间的差距。

力”
I*3
发帖数: 7012
19
看到阿发狗人模狗样地读秒,哥就一冷笑。
阿发狗两版本。单机版和分布式版。Nature上提到的分布式版用1202个CPU 和 176 个
GPU, 规模大概是单机版的25倍。为什么要有分布式版存在,就尼玛一个字快。当人一
个大脑在算一种变化时,狗的几千个CPU可以同时算几种,十几种,几十种变化。和樊
麾比的就是这种分布式版。和李世石比的分布式版规模只会大不会小。
分布式计算是scalable的,傻逼才相信1202个CPU 和 176 个GPU是阿发狗的极限。只是
这个规模已经是大到可以让阿发狗算到足够的深度和广度来赢一个樊麾。如果阿发狗有
2400个CPU 和 350 个GPU,哥相信它可以左右互博同时赢两个樊麾。所以速度对于阿发
狗来说,就是CPU/GPU的数目。看到阿发狗人模狗样地读秒,哥就一冷笑。看到李世石
在读秒时的擦汗,哥也一冷笑。你尼玛就一大脑一小脑,要和1202个CPU比速度,傻呀
?谁比谁傻逼,反正哥是不比的。
既然读秒读时间不公平,那读什么公平?读能量读焦耳。人类思考消耗能量,阿发狗思
考也尼玛要能量。如果分布式阿发狗要用run一个biulding,或者半个城市的能量来... 阅读全帖
I*3
发帖数: 7012
20
看到阿发狗人模狗样地读秒,哥就一冷笑。
阿发狗两版本。单机版和分布式版。Nature上提到的分布式版用1202个CPU 和 176 个
GPU, 规模大概是单机版的25倍。为什么要有分布式版存在,就尼玛一个字快。当人一
个大脑在算一种变化时,狗的几千个CPU可以同时算几种,十几种,几十种变化。和樊
麾比的就是这种分布式版。和李世石比的分布式版规模只会大不会小。
分布式计算是scalable的,傻逼才相信1202个CPU 和 176 个GPU是阿发狗的极限。只是
这个规模已经是大到可以让阿发狗算到足够的深度和广度来赢一个樊麾。如果阿发狗有
2400个CPU 和 350 个GPU,哥相信它可以左右互博同时赢两个樊麾。所以速度对于阿发
狗来说,就是CPU/GPU的数目。看到阿发狗人模狗样地读秒,哥就一冷笑。看到李世石
在读秒时的擦汗,哥也一冷笑。你尼玛就一大脑一小脑,要和1202个CPU比速度,傻呀
?谁比谁傻逼,反正哥是不比的。
既然读秒读时间不公平,那读什么公平?读能量读焦耳。人类思考消耗能量,阿发狗思
考也尼玛要能量。如果分布式阿发狗要用run一个biulding,或者半个城市的能量来... 阅读全帖
z****e
发帖数: 54598
21
来自主题: Programming版 - 求推荐database的软件 (转载)
1)分布式对transaction无理论上的绝对解
目前唯一能做的就是采用两段式的事务来搞定
第一次向全部nodes发送start transaction命令
然后收集到全部反馈之后,再发送end transaction命令
然后assume全部nodes都会正确执行这后一条命令
这能解决大部分问题,但是不排除某一种特殊情况出现
后面那个assumption可能不成立,分布式经常出各种同信问题
所以不能保证一致性,从cap理论上看
db的主要问题也主要出现在partition tolerance上
两段式事务在一些集中的环境,比如同一个机房
保证所有机器之间的连接不被打断的时候
还是可以的,这个可以看作是一种比较弱的分布式系统
2)cap牺牲什么c还是a还是p,都有特定的方案
其中牺牲p最简单,最直观,不scale out了
就只scale up,最巅峰状态就是各种主机和hpc了
其次是牺牲c,那这个其实是最分布式的一种形态,一个主题,各自表述
当然客户最后得到的是什么结果,自己去判断
最典型的是搜索引擎,你不能保证你得到的结果一定是你想要的
你自己去判断,同一个东西在不同的地方很有可... 阅读全帖
T*R
发帖数: 36302
22
不少了,过亿的估计不下10个。包括药学,计算机,生物。
这个是美国华人教授首富。他的一个女学生资产也过亿美元。
李凯,男,1954年生,著名美国常青藤名校普林斯顿(Princeton)大学教授,1977年
毕业于吉林大学,1981年毕业于中国科学技术大学研究生院[2] ,1986年于耶鲁(
Yale)大学取得博士学位,后于普林斯顿大学任教。
在计算机领域特别是分布式计算取得杰出的研究成就,提出了分布式存储(
Distributed Shared Memory,DSM)的设计思想, 对后来的分布式计算,并行计算甚至
今天的云计算都有深远的影响。
后来又在硅谷(Silicon Valley),创办Data Domain公司,被EMC高价收购。
其培养的学生都在美国学术界占有自己的一席之地,比如Stanford的Pei Cao, UIUC的
Yuanyuan Zhou.李凯老师是当今华人计算机研究领域最有影响力的人物之一。
业界贡献:在一些论坛上,提及李凯总伴有一个“华人教授首富”的称号,这是因为李
凯2001年与人共同创办了Data Domain公司,后来于2009年被EMC以21亿美元... 阅读全帖
g**1
发帖数: 10330
23
天猫双11十年持续技术大考 支付宝自主研发接连“通关”
2018年11月07日 02:01来源: 每日经济新闻 编辑:东方财富网
分享到:
每年的天猫双11,除了是消费者的购物狂欢节,也是支付宝的技术大考。曾经最惊
险时,“只差4秒整个系统就会崩溃”,到今年,自主研发的云计算系统和OceanBase数
据库足以承载双11的全部流量,而且人工干预越来越少,智能化程度越来越高。不仅如
此,支付宝还将经过十年双11淬炼沉淀的技术对外开放,成为促进更多产业升级的基础
设施。
十年双11技术大考倒逼走自主研发之路
天猫双11走过十年,消费者在支付环节的体验,早已从早前的“能否成功看运气”
到近年的“如丝般顺滑”,这背后是支付宝技术的不断提升与创新。每年一度的技术大
考倒逼支付宝通过一条自主研发之路,解决了世界级难题。
在支付方面,在2010年,支付宝发明了快捷支付技术,用户在支付时不再需要经过
网银跳转,插U盾等繁琐的步骤,支付成功率也从60%大幅提升到了95%,极大改善了整
个双11的支付体验。
快捷支付也为后来中国移动支付的发展奠定了基础。从2014年开始,移动支付开始
迅猛发展,在双11的... 阅读全帖
n*******1
发帖数: 569
24
Microsoft, Google, Facebook, Hulu, Twitter 通吃。
人家国内硕士在读,从国内申请的,所向披靡啊,最后从了Facebook.
以下为原文:
最近签掉了 offer,找工作的事情算是告一段落。在这里写一点面试体验和心得,希望
对有兴趣去北美工作的朋友有所帮助。
先简单介绍下自己,国内硕士在读,明年毕业,没有牛 paper,也没参加过 ACM-ICPC
竞赛。在实验室做过内核、虚拟机和 Android 底层相关的研究工作,接过一些网页和
移动开发的外包,2011 年开始在字节社兼职负责后台开发。另外也经常上
Stackoverflow 和 GitHub。
这次决定直接申请美国的职位后,由于心里没底,不知道国外公司招聘的难度,所以一
开始投了很多公司。几个大公司都找人内推或者直接投了,小公司也投了不少,比如
Foursquare、Path、Pinterest 和 Square 等都试了。当时甚至在手机上找了一圈应用
,把可能涉及后端开发的应用都投了一遍。不过大多数公司都没给我安排面试,最后
Microsoft、Google、Facebook、Twitt... 阅读全帖
d********w
发帖数: 363
25
硅谷最火的高科技创业公司都有哪些?
在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最
近几年涌现的热门创业公司。我给大家一个列表,这个是华尔街网站的全世界创业公司
融资规模评选(http://graphics.wsj.com/billion-dollar-club/)。它本来的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到2015年1月17日,现在的排名和规模已经发生了很大的变化。首先,估值在10Billlon的达到了7家,而一年前一家都没有。其次,第一名是中国人家喻户晓的小米,第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比如Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有不少相似模式成功的,比如Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber),大数据(Palantir),消费级互联网,通讯(Snapchat),支付(Square),O2O App里面寻找下大机会。这里面很多公司我都亲自面... 阅读全帖
g****y
发帖数: 3
26
如果你看好电子商务的未来,
如果你有志于成为互联网测试领域的业务专家或技术专家,
如果你对广告竞价排名,搜索引擎的匹配排序,分布式存储和计算,海量数据挖掘,
CDN等核心系
统,新业务等前沿的技术感兴趣,
亚洲第一的购物网站——淘宝网期待你的加入!
以下职位招聘人数不限。软件测试开发工程师职位主要面向2011年毕业的应届生,高级
软件测试开发
工程师和测试架构师主要面向社会招聘人员。
有意者请在3月11日之前发送简历至邮箱 gongzhi#taobao.com(请把#替换为@)。我们
会在截至
日期之后尽快通知简历通过的候选人来淘宝公司参加笔试和面试。
职位1 - 软件测试开发工程师(SDET)
部门:淘宝-技术研发部-广告技术-测试
工作地点: 北京/杭州
工作职责
- 参与互联网软件产品的测试,包括参与需求和设计评审,设计和执行测试用例,进行
缺陷跟踪等
- 开发和维护自动化测试脚本和工具,提升测试的质量和效率
- 执行软件产品的性能测试并分析结果
- 可能涉及的工作领域包括广告业务系统,广告投放引擎和算法,淘宝新业务系统,淘
宝搜索引擎和
匹配排序算法,分布式存储和CDN等核心系... 阅读全帖
j****g
发帖数: 17
27
来自主题: JobMarket版 - Alibaba全球找华人技术牛人
7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘,欢迎各位同胞们联系我
以下职位期望Master 毕业5年,PhD毕业3年以及以上,具体情况可以case by case!
工程业务团队 资深岗位 关键词
会员平台 资深产品专家 海外经历、用户产品
技术质量 资深测试架构师 技术质量、软件测试、测试框架
技术质量 资深工程效能专家 工程效能、内部协同、效率提升
创新业务&评价 资深技术专家 信用评价、业务架构
数据服务 资深算法专家 推荐系统、广告系统、机器学习,VR等
数据服务 资深数据科学家 NLP、知识图谱等
数据服务 资深数据产品专家 大数据、国际化
营销平台 资深营销交易产品专家 全球化、产品规划
营销平台 资深架构师 电商架构、分布式业务架构
结算&支付平台 资深支付域... 阅读全帖
b******y
发帖数: 2729
28
【 以下文字转载自 JobHunting 讨论区 】
发信人: nirvana21 (nirvana21), 信区: JobHunting
标 题: 国内逆天大神,M, G, F, T, H...通吃!
发信站: BBS 未名空间站 (Tue Mar 12 17:21:55 2013, 美东)
Microsoft, Google, Facebook, Hulu, Twitter 通吃。
人家国内硕士在读,从国内申请的,所向披靡啊,最后从了Facebook.
以下为原文:
最近签掉了 offer,找工作的事情算是告一段落。在这里写一点面试体验和心得,希望
对有兴趣去北美工作的朋友有所帮助。
先简单介绍下自己,国内硕士在读,明年毕业,没有牛 paper,也没参加过 ACM-ICPC
竞赛。在实验室做过内核、虚拟机和 Android 底层相关的研究工作,接过一些网页和
移动开发的外包,2011 年开始在字节社兼职负责后台开发。另外也经常上
Stackoverflow 和 GitHub。
这次决定直接申请美国的职位后,由于心里没底,不知道国外公司招聘的难度,所以一
开始投了很多公司。几个大公... 阅读全帖
f****4
发帖数: 1359
29
说一下个人背景,各位自己判断是否有必要浪费时间看我码的字。
码完了比较之后码一点个人感想,有兴趣的就看,没兴趣的跳过,谢谢。
国内6年做项目的经历,做过通用财务(就是实现),石化行业固定资产(需求不是我
做的,别的归我负责的),服装行业预算和政府的财政预算(标书不是我写的,剩下的
我都做了)。
先说一下工程角度比较什么。需求分析,技术方案可行性,项目实现难度,项目风险控
制,工期和预算。
需求分析放这不伦不类,但需求是基础,基于需求给方案。你得了解用户想要个什么玩
意,哪些是必须实现的,哪些是可以讨价还价的。你学过的软件工程,课本上说的教条
实际行不通。国内的需求,更像agile开发过程。签了合同,用户想改需求就改了。你
就是交货,客户签字了,加个功能就加了。
工期和预算,因为之前就讨论2个方案的技术可行性,这2块没怎么提.但魏老师的方案
,主要的主机实现,是黑盒,不能堆人上去,很可能因为这一块拖累整个工期。
goodbug的方案,工期上压力还可以,因为通用方案,堆人上去。但后果也很明显:人
工上去了,人的素质总有高低,最后得靠QA把关。
技术方案可行性,之前的讨论就集中在这一块。
魏... 阅读全帖
f****4
发帖数: 1359
30
首先,一个设计方案肯定是有取舍的。这点你要是不承认,我就没法和你讲了。我只能
说,就算我相信你的方案每个方面都是最优的,但我认为你最优的过程是要增加系统复
杂度的,我还会认为这块地方实施有风险。
他们2个人其实多少都有提怎么处理票。我懒得去推了。
你去看我分析魏老师的方案的时候,新增车次,那个,我明确提到,牺牲时间,花一个
小时去导入。导入,简单吧,导入不成,再来一次。单机操作内存的事情。哪怕你U盘
拷贝失败,再来一次就是了。我还放了个假设在那,不在线兼容现有的票务系统,不然
讨论起来更复杂了。
分段票那块,魏老师的方案上主机。goodbug也认为主机能做的,只是他认为这么低的
成本的主机处理不了这么高的throughput。你看我那提的,90+CPUs,36G的server,5
万美金。我认为就是要实现,也得加点预算。不然讨论不下去了。然后就是单线程,多
线程实现的区别了。单线程,不需要加预算,好处内存不用加锁。多线程,要加预算,
坏处实现复杂一点。但是一个买票的,C++,单机的程序,实现起来你觉得这个风险大
么???
我看到后面goodbug的回帖,我知道他还是没明白他到底差了哪一... 阅读全帖
z*******3
发帖数: 13709
31
paxos和raft都是关于consensus的论文
其本质都是为了解决一个consensus的问题
分布式和单机最大的区别就在乎
分布式是由一堆nodes组成的网络,而单机很容易
就是一台破机器而已,所以单机不存在一个consensus的问题
而分布式的nodes众多,这么多个nodes互相之间肯定有分歧
如果摆平分歧,这就是consensus的过程
所有nodes提proposal,只要proposal#之间的先后顺序确定
就没有问题,用leader就是一种方式,那就是要vote,但是如果vote数量持平呢?
比如4个nodes,两个选a,另外两个选b呢?
然后paxos的垃圾之处就在于,它假设了这个global proposal#的顺序问题已经得到了
解决
就是假设数量持平的话,a和b在某种机制下会分出胜负来,而具体这个机制是什么
“不在本文讨论范围之内”,然后还很神秘地解释了,“有很多种方式可以搞定”
wtf?对,这也是我的想法,麻痹的这个如果得到了解决,还需要你说个p啊?
对,这就是paxos通篇废话的主因,因为最关键的问题,被它假设掉了
而且很搞笑的是,蓝胖子自己在他几十年... 阅读全帖
m***r
发帖数: 359
32
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-01
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-01/short.html
1) 【深入解析NoSQL数据库的分布式算法】 by @互联网运维沙龙
关键词:数据库, NoSQL
【深入解析NoSQL数据库的分布式算法】 [1]
[1] http://www.csdn.net/article/2015-01-30/2823782#0-tsina-1-19619-397232819ff9a47a7b7e80a40613cfe1
2) 【Powerstrip串联Docker扩展工具】 by @perldaily
关键词:虚拟化, Docker, 容器
#devopsweekly# Powerstrip 项目 [1] 之前曾经发布Flocker的ClusterHQ公司又发布
一个帮助串联Docker扩展工具的东西
[1] https://... 阅读全帖
s*****V
发帖数: 21731
33
昨天,记者从国网浙江省电力公司获悉,今年我省光伏发电量呈爆发式增长态势。
截至8月底,今年光伏发电量累计达4303万千瓦时,去年同期光伏发电287.25万千瓦时
,同比增长1398%。其中,省电力公司累计消纳光伏发电量966万千瓦时,是去年同期的
2.58倍。
日前,国家发改委明确了光伏电站上网电价政策及分布式光伏上网电价补贴标准。
今年国家关于光伏产业的利好政策频出,加上省电力公司对分布式光伏发电项目的积极
消纳态势,加速了我省光伏电站的开发热潮。
据统计,截至8月底,省电力公司已受理并网申请的光伏发电项目134个,装机总容
量39.16万千瓦。其中,已并网运行项目65个,装机容量13.47万千瓦。
在国家能源局近日公布的首批18个国家级分布式光伏发电应用示范区中,浙江项目
就占了3个。其中,桐庐经济开发区50兆瓦项目已正式启动建设,预计建成后年发电量
4700万千瓦时。
这波热潮也激发了越来越多普通居民尝试在自家屋顶建设光伏发电站。省电力公司
今年就受理了居民光伏发电项目并网申请20个,并累计有23户实现并网发电。
我省首个并网的居民屋顶光伏电站自2月初并网至今,已累计发电4700... 阅读全帖
I*****y
发帖数: 854
34
21世纪经济报道 梁钟荣 辛继召 深圳报道
核心提示:一眼瞬间,过去2010-2012年三年中,债务高筑、多国双反加身的中国
光伏企业还一直活在破产的压力中。
在西北地区待了超过两年的时间,孙会江第一次感受到无货可供用户的苦恼。
“光伏电站投资人的订单已经摆在面前,但是我们的仓库里却没有货了。”孙是中
国最大的组件企业英利绿色能源西北区的经理,他懊恼地告诉记者,这种情况在5月底
时就已经出现。过去三年,英利西北公司销售了超过890MW的组件,今年预计销量超过
1GW。
遭遇类似窘境的不仅仅是英利一家,据记者了解,阿特斯阳光、晶科能源、昱辉阳
光等中国一线光伏企业目前均处于满产状态。一眼瞬间,过去2010-2012年三年中,债
务高筑、多国双反加身的中国光伏企业还一直活在破产的压力中。
没有人能够预计,2013年是否就是中国光伏企业的翻身之年。但统计数据显示,日
前国内已发布2013年中报业绩预告的国内30家光伏企业中,22家公司报出今年上半年业
绩预盈,占已发布业绩预告公司总数的73.3%。
德意志银行更是乐观预测,从2013年开始,全球光伏新增装机进入“第三增长阶段
”。“全球光伏装... 阅读全帖
S*********4
发帖数: 5125
35
能源是现代化的基础和动力。能源供应和安全事关我国现代化建设全局。新世纪以来,
我国能源发展成就显著,供应能力稳步增长,能源结构不断优化,节能减排取得成效,
科技进步迈出新步伐,国际合作取得新突破,建成世界最大的能源供应体系,有效保障
了经济社会持续发展。
当前,世界政治、经济格局深刻调整,能源供求关系深刻变化。我国能源资源约束日益
加剧,生态环境问题突出,调整结构、提高能效和保障能源安全的压力进一步加大,能
源发展面临一系列新问题新挑战。同时,我国可再生能源、非常规油气和深海油气资源
开发潜力很大,能源科技创新取得新突破,能源国际合作不断深化,能源发展面临着难
得的机遇。
从现在到2020年,是我国全面建成小康社会的关键时期,是能源发展转型的重要战略机
遇期。为贯彻落实党的十八大精神,推动能源生产和消费革命,打造中国能源升级版,
必须加强全局谋划,明确今后一段时期我国能源发展的总体方略和行动纲领,推动能源
创新发展、安全发展、科学发展,特制定本行动计划。
一、总体战略
(一)指导思想。
高举中国特色社会主义伟大旗帜,以邓小平理论、“三个代表”重要思想、科学发展观
为指导,深入贯彻党的十... 阅读全帖
d********y
发帖数: 6566
36
人民网北京11月19日电据中国政府网消息,国务院办公厅日前下发《关于印发能源发展
战略行动计划(2014-2020年)的通知》。行动计划提出,到2020年,基本形成比较完
善的能源安全保障体系。国内一次能源生产总量达到42亿吨标准煤,能源自给能力保持
在85%左右,石油储采比提高到14-15,能源储备应急体系基本建成。
中国政府网发布的《能源发展战略行动计划(2014-2020年)》如下:
能源发展战略行动计划(2014-2020年)
能源是现代化的基础和动力。能源供应和安全事关我国现代化建设全局。新世纪以来,
我国能源发展成就显著,供应能力稳步增长,能源结构不断优化,节能减排取得成效,
科技进步迈出新步伐,国际合作取得新突破,建成世界最大的能源供应体系,有效保障
了经济社会持续发展。
当前,世界政治、经济格局深刻调整,能源供求关系深刻变化。我国能源资源约束日益
加剧,生态环境问题突出,调整结构、提高能效和保障能源安全的压力进一步加大,能
源发展面临一系列新问题新挑战。同时,我国可再生能源、非常规油气和深海油气资源
开发潜力很大,能源科技创新取得新突破,能源国际合作不断深化,能源发展面... 阅读全帖
z****e
发帖数: 54598
37
来自主题: Military版 - 感觉python的前途堪忧

MATLAB
你知道为啥要搞分布式吗?
你知道分布式跟什么很像吗?
分布式网络就是大脑的神经网络啊
每一个node就是大脑的每一个node的直接模拟
之所以现在不够聪明,是因为node数量还不够多
现在cloud上爆几十个nodes算很多了
上千个node也不过yahoo在做
但是人的大脑有850亿个nodes
所以在没有实现这个数量级之前
人的进步是不会停止的
不会java搞个屁分布式
除了爆点理论之外
不会java连个最基本的local并行都搞不定
还分布式呢
f***y
发帖数: 4447
38
http://www.sohu.com/a/319699697_171073
近日,由中国信息通信研究院 、大数据技术标准推进委员会主办的“2019大数据产业
峰会暨大数据产业博览会”在北京国际会议中心正式召开,中兴通讯GoldenDB数据库以
50项评测全部满分的优异表现通过“第八批大数据产品能力测评”分布式事务数据库能
力认证。
早在2019年1月份,工信部信通院数据中心联盟就已启动第八批“大数据产品能力评测
”工作。参与本次测评的厂家几乎囊括了国内所有知名数据库厂商。测评要求非常严苛
,测评内容细分为:数据库基础能力、兼容能力、管理能力、高可用能力、扩展能力、
安全能力等六大部分共50项测评项。
中兴通讯GoldenDB满分通过50项评测
中兴通讯GoldenDB完成100%能力要求
中兴通讯GoldenDB作为金融级交易型数据库,在SQL兼容性、事务管理、分布式扩展、
数据一致性和数据安全等技术项均表现优异,以50项测评项全部满分的成绩顺利通过了
本次测评。作为国内外极具权威的评测体系,“DCA大数据产品评测”已经成为中国厂
商产品研发和用户采购选型的风向标。通过本次测评进一步... 阅读全帖
E*V
发帖数: 17544
39
昨天,记者从国网浙江省电力公司获悉,今年我省光伏发电量呈爆发式增长态势。
截至8月底,今年光伏发电量累计达4303万千瓦时,去年同期光伏发电287.25万千瓦时
,同比增长1398%。其中,省电力公司累计消纳光伏发电量966万千瓦时,是去年同期的
2.58倍。
日前,国家发改委明确了光伏电站上网电价政策及分布式光伏上网电价补贴标准。
今年国家关于光伏产业的利好政策频出,加上省电力公司对分布式光伏发电项目的积极
消纳态势,加速了我省光伏电站的开发热潮。
据统计,截至8月底,省电力公司已受理并网申请的光伏发电项目134个,装机总容
量39.16万千瓦。其中,已并网运行项目65个,装机容量13.47万千瓦。
在国家能源局近日公布的首批18个国家级分布式光伏发电应用示范区中,浙江项目
就占了3个。其中,桐庐经济开发区50兆瓦项目已正式启动建设,预计建成后年发电量
4700万千瓦时。
这波热潮也激发了越来越多普通居民尝试在自家屋顶建设光伏发电站。省电力公司
今年就受理了居民光伏发电项目并网申请20个,并累计有23户实现并网发电。
我省首个并网的居民屋顶光伏电站自2月初并网至今,已累计发电4700... 阅读全帖
c*****r
发帖数: 108
40
来自主题: JobHunting版 - amazon onsite 回来
就这几天面的 刚从西雅图回来。 还没消息,但是觉得自己面得很烂。
总体感觉,不知道为什么我觉得比google的难。去google onsite 的时候题目基本上还
都写出来。这次amazon
的题目我大多没能一次写到位。中间磕磕巴巴的。
去之前准备了不少分布式系统的知识,把好几门课都归纳复习了一下,career cup上的
题目基本上是都做完了,不看答案的情况下基本上也是几分钟就有思路能够写出来。OO
design的题目还特地准备了下,还自己想办法把OO的题目扩展到了分布式系统了加上
了design pattern的考虑在里面。 但是面试当天的题目还是让我戳手不及,一天下来
极端劳累。
最后基本上只记得两三个题目,别的后来忘了个精光。先上题吧:
1。 已知一个dictionary (String array) 是按照某种字母表顺序排列的,求输出这
个字母表顺序。
也就是说,以前我们按照a-z的顺序排列单词,现在不一样了。 是按照某种特定的顺序
排好的。写个方程把这个隐含的顺序输出来。 (这个题目我磕磕巴巴写完了。但是我
自己都觉得不是很对,面试官也觉得有问题,但是由于太复杂,他选... 阅读全帖
r******r
发帖数: 700
41
来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖
r******r
发帖数: 700
42
来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖
j********e
发帖数: 12
43
来自主题: JobHunting版 - IBM 并行文件系统(GPFS)组招人
IBM GPFS(General Parallel File System)组里现在要招2个Developer,职位在北京
,有想回国的技术牛牛可以考虑这个职位。
技术方面需要linux Kernel + 分布式/并行算法 方面的能力,项目组做的内容很核心
,我们和IBM Almaden Research一起从事该并行文件系统的设计开发等工作。

工作内容很有挑战,如果您不是一个喜欢挑战并且愿意沉下心研究核心技术的人,请勿
投简历。

项目组主要涉及的或者你进来可以学到的技术有: 分布式锁和Token,分布式日志,
Quota,Snapshot, IO(分布式DIO,AIO,MmapIO etc), Memory Buffer
management, Parallel FS cache等模块的实现细节。

如果您研究过开源的分布式/并行文件系统的代码实现或者您在北美的公司里从事过内
核/文件系统相关的研发工作,非常欢迎过来跟我们交流。

我们的待遇可以给到band9及以上。 (大概50到100W RMB)

工作地点:北京。
如果您想了解更多关于GPFS的信... 阅读全帖
z****e
发帖数: 54598
44
2pc理论上在分布式是不完美的解
在一定程度上强化了consistency,但那是对于一次commitment而言
实际上jdbc时代的2pc都做得很一般,基本上这种transaction都是失败的
说是可以回滚,但是一旦commit指令发出,ack阶段一旦有node失败
那就挂了,其中一个node挂了,又不能让其它nodes rollback
因为commit指令已经发出,这就是分布式的死结所在
所以一些特别大的系统,基本上还是ibm的主机在做,比如全球机票
就是那么几个公司那么几个系统那么几台主机,而不是分布式
当初火车票铁道部招标的时候,也只有ibm有成熟的解决方案,就是主机
铁道部很华丽滴弃用了ibm的建议,然后自己搞了一套山寨式的分布式系统
一堆的低级bug,结果就很华丽滴挂了
实际上nosql只是用来弥补db的不足而出现的
真正核心业务,尤其是涉及到金钱的地方,我们还是建议回到db上去
db无论transaction还是index,都比较完善,而且也发展了这么多年
成熟的例子比比皆是,这就是为什么,nosql的大多数例子
其实都拿的是log来举例,因为log本身精度偏低,无... 阅读全帖
d**e
发帖数: 6098
45
来自主题: JobHunting版 - [合集] System design总结
☆─────────────────────────────────────☆
peking2 (scala) 于 (Tue Mar 19 14:28:11 2013, 美东) 提到:
1. System design 是一个很大的话题,大的System一般都是由Architect来设计的,因
此就算工作过若干年的也未必有很丰富的system design的经验。如果想对system
design有一个初步了解,我发现这个文章不错,http://www.palantir.com/2011/10/how-to-rock-a-systems-design-interview/
2. 因为我们jobhunting的主要目标集中在了FLGT等互联网公司,因此在这个范畴里的
system design也就集中在了分布式计算和分布式存储的design上了。想对这些设计理
念有个大体的了解可以读读Google的三驾马车,GFS, MapReduce和BigTable。
3. 有大牛建议读读各个公司的engineering blogs,我觉得是非常好的建议。不但能学
习system des... 阅读全帖
z****8
发帖数: 5023
46
来自主题: JobHunting版 - 选课求助
这种课 个人理解 就是大方向 说一堆乱七八糟的所谓分布式架构
等你工作了 9.9999成可能性 这些都是狗屎 完全用不到
你有8成可能性完全用不到什么分布式 1.8成可能性 用点hadoop之类的框架
0.1999成可能搞点其他分布式开发 0.0001去设计分布式架构
基本上 只有最后那个最小的可能性需要你学的分布式知识
j********e
发帖数: 12
47
来自主题: JobMarket版 - IBM 并行文件系统(GPFS)组招人
IBM GPFS(General Parallel File System)组里现在要招2个Developer,职位在北京
,有想回国的技术牛牛可以考虑这个职位。
技术方面需要linux Kernel + 分布式/并行算法 方面的能力,项目组做的内容很核心
,我们和IBM Almaden Research一起从事该并行文件系统的设计开发等工作。

工作内容很有挑战,如果您不是一个喜欢挑战并且愿意沉下心研究核心技术的人,请勿
投简历。

项目组主要涉及的或者你进来可以学到的技术有: 分布式锁和Token,分布式日志,
Quota,Snapshot, IO(分布式DIO,AIO,MmapIO etc), Memory Buffer
management, Parallel FS cache等模块的实现细节。

如果您研究过开源的分布式/并行文件系统的代码实现或者您在北美的公司里从事过内
核/文件系统相关的研发工作,非常欢迎过来跟我们交流。

我们的待遇可以给到band9及以上。

工作地点:北京。
如果您想了解更多关于GPFS的信息,可以查看 http://ww... 阅读全帖
k*******3
发帖数: 918
48
昨天,记者从国网浙江省电力公司获悉,今年我省光伏发电量呈爆发式增长态势。
截至8月底,今年光伏发电量累计达4303万千瓦时,去年同期光伏发电287.25万千瓦时
,同比增长1398%。其中,省电力公司累计消纳光伏发电量966万千瓦时,是去年同期的
2.58倍。
日前,国家发改委明确了光伏电站上网电价政策及分布式光伏上网电价补贴标准。
今年国家关于光伏产业的利好政策频出,加上省电力公司对分布式光伏发电项目的积极
消纳态势,加速了我省光伏电站的开发热潮。
据统计,截至8月底,省电力公司已受理并网申请的光伏发电项目134个,装机总容
量39.16万千瓦。其中,已并网运行项目65个,装机容量13.47万千瓦。
在国家能源局近日公布的首批18个国家级分布式光伏发电应用示范区中,浙江项目
就占了3个。其中,桐庐经济开发区50兆瓦项目已正式启动建设,预计建成后年发电量
4700万千瓦时。
这波热潮也激发了越来越多普通居民尝试在自家屋顶建设光伏发电站。省电力公司
今年就受理了居民光伏发电项目并网申请20个,并累计有23户实现并网发电。
我省首个并网的居民屋顶光伏电站自2月初并网至今,已累计发电4700... 阅读全帖
s**********o
发帖数: 14359
49
【 以下文字转载自 JobHunting 讨论区 】
发信人: rongxuer (蓉儿), 信区: JobHunting
标 题: 如何秒杀99%的海量数据处理面试题
发信站: BBS 未名空间站 (Thu Apr 5 02:08:57 2012, 美东)
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的... 阅读全帖
f****4
发帖数: 1359
50
开始蛮生气的,先写的私货部分。但写啊写啊,气也消得差不多了。删了也可惜,修改
也觉得麻烦,干脆移到私货部分,扔个想法在开头。
我在这板块上也不是为了和谁过不去,看到点想法,觉得可以讨论一下的人,估计不止
我一个。。。
要是想嘲笑我背景的呢,那也没什么,开头我就说了:我就强在做项目。但那个
ThatOne,你既然啥都明白,那就给个补丁,降低一下排队时间。谢谢~(我一直在等
这个补丁,要是实在等不到也就算了)
之前有人嬉笑打趣,说最方便不如让TG调查,有多少人要买春运火车票的,然后送票上
门。但其实不用这么麻烦,既然97年(?)就已经有了票务系统,当这个车次已经抵达
终点了,这个票务信息就已经没什么用处了。不过,应该可以废物利用依稀:现在票上
有身份证号码,知道你的起点和终点,还知道你这个车次是什么时候的(要是能有什么
时候买票的信息更好)。这些就是元数据,大数据+数据挖掘。也没有时间限制,一台
主机慢慢跑,或者上分布式的,都行。每个月跑一次,修正模型。到春运那会应该能大
致估算出春运流量,从哪去哪。因为农民工春节之后出来打工,春节前总是要回去的。
讨厌的是城市工作的白领夫妻,今年可能去婆... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)