b***i 发帖数: 3043 | 1 最近又看到google computing engine,估计类似aws了,是高性能计算的。你可以看看。 |
|
c****e 发帖数: 1453 | 2 public cloud还是挺贵的。先自己弄个机器弄个business plan在家里用一段时间。等
有人真正开始用你的service以后,再考虑EC2或者Azure.其实,传统的托管价格比较实
惠。关键是你的整个pipeline是怎么做的,比如你需要periodically run hadoop job
做traning产生model吗? 这又牵涉到你的data store用什么。 看你说的,应该是考虑
mongoDB,CouchDB之类的,总的来说,这方面EC2玩起来最flexible.
如果用微软的平台,可以不花钱加入bizspark.三年之内用windows server, sql
server license不要钱。用Azure有免费的package价值$60K.
decision tree, random forest之类的classifier很快.优化一下你的engine吧。model
可以放到memory cache里面.如果qps确实高,可以很容易增加你的role instance
number。
从cost优化的角度考虑,可以把request分tier做。如某些可以... 阅读全帖 |
|
b***e 发帖数: 7 | 3 这个绝对用Amazon AWS Cloud省钱,省力。
如果你还没有用过AWS cloud,强烈推荐你去试试。AWS的存储备份计算等所有你用到的
基本上都齐全,能省无数精力。尤其是你可能需要某些峰值运算,可以建个image,同
时开数百台机器。
价格上用spot instance,4核CPU每个小时几分钱,比自家机器的电费都少。
更好的办法是,去ebay 搜索 “aws credit",可以买到30块钱买到$100的credit,更省
了。 |
|
z*****i 发帖数: 366 | 4 能不能给推荐个AWS的教材?目前看到的全是无用的教程。 |
|
c*********e 发帖数: 16335 | 5 godaddy.com?
app。
learning |
|
|
g*****g 发帖数: 34805 | 7 啥写的?看看Google AppEngine?
app。
learning |
|
l*******s 发帖数: 1258 | 8 还没写好。
用java
数据库有可能用mysql,或者干脆不用数据库。 |
|
|
|
d****n 发帖数: 1637 | 11 server 只管数据,
运算用javascript.消耗用户的资源。算完了发给server.
就看你有没有勇气用js写ML了。
缺点,open source, 慢 |
|
l*******s 发帖数: 1258 | 12 没有勇气。
不管啥语言 就算是c实现的ML模型 在load进model文件时 至少要几秒 更不用说js了
这个时候 客户手机基本就停止响应了 |
|
w***g 发帖数: 5958 | 13 找个colocation data center,自己攒好机器后放过去就行。也是几十块钱一个月。我
用的是这家http://www.nexcess.net/. 需求跟你完全一样.
我很好奇双CPU+64G内存怎么样<$1000能搞定。
app。
learning |
|
|
|
b***i 发帖数: 3043 | 16 最近又看到google computing engine,估计类似aws了,是高性能计算的。你可以看看。 |
|
c****e 发帖数: 1453 | 17 public cloud还是挺贵的。先自己弄个机器弄个business plan在家里用一段时间。等
有人真正开始用你的service以后,再考虑EC2或者Azure.其实,传统的托管价格比较实
惠。关键是你的整个pipeline是怎么做的,比如你需要periodically run hadoop job
做traning产生model吗? 这又牵涉到你的data store用什么。 看你说的,应该是考虑
mongoDB,CouchDB之类的,总的来说,这方面EC2玩起来最flexible.
如果用微软的平台,可以不花钱加入bizspark.三年之内用windows server, sql
server license不要钱。用Azure有免费的package价值$60K.
decision tree, random forest之类的classifier很快.优化一下你的engine吧。model
可以放到memory cache里面.如果qps确实高,可以很容易增加你的role instance
number。
从cost优化的角度考虑,可以把request分tier做。如某些可以... 阅读全帖 |
|
b***e 发帖数: 7 | 18 这个绝对用Amazon AWS Cloud省钱,省力。
如果你还没有用过AWS cloud,强烈推荐你去试试。AWS的存储备份计算等所有你用到的
基本上都齐全,能省无数精力。尤其是你可能需要某些峰值运算,可以建个image,同
时开数百台机器。
价格上用spot instance,4核CPU每个小时几分钱,比自家机器的电费都少。
更好的办法是,去ebay 搜索 “aws credit",可以买到30块钱买到$100的credit,更省
了。 |
|
z*****i 发帖数: 366 | 19 能不能给推荐个AWS的教材?目前看到的全是无用的教程。 |
|
l*******s 发帖数: 1258 | 20 多谢,正在看AWS的价格计算方法,七七八八的也不少。
我目前的project状态:
cpu估计俩核就够了
内存需要4G,因为要跑mysql和一些machine learning的webservice
硬盘需求很低,10G撑死了
带宽一般就行,目前访问量很低。
这个大体估算一下多少钱?
目前我用的是65刀一个月的dedicated server,VolumeDrive的,性价比非常高,至强
1230,8G内存,1T硬盘,Gbps带宽。就是不大稳定,一个月down机两次。 |
|
w****k 发帖数: 6244 | 21 ec2 medium instane
reserve一年,几百快钱 |
|
l*******s 发帖数: 1258 | 22 bizspark是个好东西 有空慢慢研究下
关于machine learning好资源的那部分 我全改成了集中运算数据然后存到数据库里,
后面用户访问就基本都是database的IO操作了,相比之前用ML实时运算出结果少很多消
耗。也算是加了cache吧。
现在估计server 俩核cpu,3G内存就足够了。
job
model |
|
|
g****r 发帖数: 1589 | 24 要是一直开着肯定比VPS贵,毕竟人家帮你管理了很多东西。要是只是偶尔需要几十台
机器来算下东西,那绝对aws省钱 |
|
z*******3 发帖数: 13709 | 25 那不对吧,如果像netflix那样,机器能不天天开着么? |
|
|
s***o 发帖数: 6934 | 27 before thinking about how to host your services, i would try very hard to
not require user to wait for several seconds on client side. is there any
way to trade storage for performance? |
|
g*****g 发帖数: 34805 | 28 Java, use Jersey to expose your WebService. You may also want to use Spring.
run |
|
n*****3 发帖数: 1584 | 29 spring for such personal project? overkilled?
Spring. |
|
w**z 发帖数: 8232 | 30 Jersey + Tomcat is a safe bet for rest WS.
Spring. |
|
|
|
|
|
w***g 发帖数: 5958 | 35 还有就是慢. 我用写C++核心程序做大数据处理, 本来>98%的运算量都在我这边, 费了
老大劲做优化, 结果外围python程序比我核心程序还要慢几倍, 一集成整个系统就咯屁
了, 根本没法scale up. 真是气死我了.
不过这个跟语言本身没什么关系, 就是解释器太烂. |
|
f*******a 发帖数: 663 | 36 一点心得,仅供参考。
1. MATLAB代码管理。SourceInsight和UltraEdit在自定义后可以解析m文件,管理起来
要顺手一些,查找什么的也方便一点。
2. 编程风格。主程序入口和一般函数的文件命名要有明显的区分,比如Main_xxx,
Demo_xxx,FUNC_xxx
3. 混合编程可以提高运行效率,但是增大了维护和调试的难度。只有在非常必须的情
况下,才考虑这种方式,而且只对瓶颈优化。做多了对运算量、瓶颈和可能的优化心里
有数的话,也就更明白该如何选择开发平台。
4. GUI。Matlab的GUI其实能做大部分的事情,愿意的话嵌入OpenGL窗口之类的也都能
做到。虽然简陋麻烦点,但对于大部分科学计算我觉得都是足够的。当然,有很多交互
的GUI不在此列,还有网络类型的应用我也不了解。
5. STL源码剖析。看了看目录,好像是这本。在国内很久以前买的书,没带过来。侯捷
的书的好处是有深度而且容易懂,这在教材里面不多见。其实如果只是想“使用”数据
结构,那其实很容易。要追求高效代码并“理解”内在机制,有时间的话建议读这本书。 |
|
m****a 发帖数: 2593 | 37 http://www.ccthere.com/article/3965719
我曾在淘宝写过一段时间代码,2012年在一家百强民企做电商副总,当时在极为艰苦的
条件下带队开发了一个B2C网站,走支付宝和银联支付通道,年营业额千万级(当然实
在太少了,我只是说这个网站投入了实际的运营)。
也就在那个时候,我对12306嗤之以鼻,觉得他们做得太烂了,认为自己能带队花几百
万半年时间做个好的出来。于是我狂妄地想做一个开源的订票系统给他们。我花了一个
星期时间思考建立数据模型,思考到库存这一步的时候,我才发现,12306的库存复杂
性比淘宝、京东高很多倍,运算量也大很多倍。传统的分布式数据库、缓存、负载均衡
技术并不能恰好满足12306的需求。
在平时,12306也就是个正常的电商网站。但一到黄金周,12306就是一个全站所有商品
都秒杀,所有SKU都是动态库存的变态。
即使不考虑线下既有的电话、代售点等渠道,要实现一个12306,最少最少也是千万级
别的硬件投入(这是当时的估算,没有精算,可能与实际相差较大,总之,我说得不一
定对,12306的业务也许没我说的那么复杂,但也绝不是某些人喷的那... 阅读全帖 |
|
s*****r 发帖数: 43070 | 38 1月11日起,12306网站开始销售除夕当日火车票。每到此时,铁路系统唯一的官方购票
网站12306就会成为众矢之的。今年也不例外,12306再次被淹没在一片埋怨声中。
1月5日,观察者网刊登了问答网站“知乎”上的用户王强的解答,回答“如果把12306
外包给IBM或者阿里巴巴来做的话,能不能比现在做得好?”这一问题。
1月10日,一位ID名为“代码狗”的前淘宝工程师,后来在一家电商公司做技术副总的
IT业内人士也在著名论坛“西西河”上发文,表达了他自己对12306系统的看法。
值得注意的是,“代码狗”在12306系统刚上线时也有过不少微词。为了证明12306系统
很容易搭建,“代码狗”甚至曾经发起过一个名为“替12306设计系统”的开源项目。
通过工作中的实践,“代码狗”对于12306系统也有了新的认识。
观察者网转载此文,供读者参考。
全文如下:
官方订票网站12306崩溃时的页面(资料图)
本人淘宝技术专家,2012年在一家百强民企做电商副总,当时在极为艰苦的条件下带队
开发了一个B2C(企业针对个人开展的电子商务活动——观察者网注)网站,走支付宝
和银联支付通道,年营业额千万级... 阅读全帖 |
|
n*****t 发帖数: 22014 | 39 1、抢票:
前段很容易针对 pattern 进行限制,比如你 100ms 识别出校验码,滚粗去;2 秒钟查
询 10 个车次,滚粗去 。。。
2、联程:
现在已经有大量数据可以分析,针对可能的联程构建虚拟车次,比如北京到广州经上海
转,加个车次 V102120,小概率的比如北京经乌鲁木齐到天津就不加了。
3、预充值:
购买前先充值到账户,5 毛钱余额的不准查北京到莫斯科的,充值后退款需 24 小时,
这样可以挡住部分黄牛。充值凭身份证到火车站窗口或者支付宝,这样也可以绑定真实
性。
4、查询、锁票预分析:
如某车次在特定时间段超过一定数量的查询,比如 5 秒内超过 10000 人,查询直接返
回 NULL。所有查询基于实际、虚拟车次,减少实时运算量。查询结果编译成锁票操作
码:车次+锁定站点,估摸 8 bytes 就够了。
5、锁票:
不同车次用不同 ASIC,虚拟车次使用 ASIC 级联,数据库操作不需要构建 SQL 神马的
,就是 2 个 cycle 的 I/O:write/read。
6、出票:
锁定成功直接出票
基本上除了锁票,其他都可以分布处理,各位大牛看看如何? |
|
c******3 发帖数: 296 | 40 淘宝内部人谈设计12306
一直觉得从讨论12306的设计,可以学到很多东西。本版俩大牛老魏和goodbug的设计各
有千秋,精彩绝伦。也很遗憾地看到,凭俩位这么多年的经验,居然设计中都有完全忽
视最最基本需求的地方。前者最初的设计不保证同车同座,后者的设计不保证实时。凭
这种低级硬伤,FLG面试设计一轮估计悬了。
俩大牛都搞不定,我等更没折了。坐下好好学习吧。搜到一篇淘宝内部人写的心得,在
此分享。不觉得他写的都对,例如超卖.淘宝大牛也比不上本版俩大牛,但毕竟是做过
类似系统的淘宝人,可能他的师哥师妹就曾帮12306做过,所以应该是有参考价值的。
===========http://www.cchere.com/topic/3965719==============
我曾在淘宝写过一段时间代码,2012年在一家百强民企做电商副总,当时在极为艰苦的
条件下带队开发了一个B2C网站,走支付宝和银联支付通道,年营业额千万级(当然实
在太少了,我只是说这个网站投入了实际的运营)。
也就在那个时候,我对12306嗤之以鼻,觉得他们做得太烂了,认为自己能带队花几百
万半年时间做个好的出来。于是我... 阅读全帖 |
|
s****y 发帖数: 503 | 41 我们Lab以前有人想做这个题目
但是把视频中的图像截取那么多 运算量也太大了 |
|
|
D*****r 发帖数: 6791 | 43 西西河 上的 代码狗 发文。
本人淘宝技术专家,2012年在一家百强民企做电商副总,当时在极为艰苦的条件下带队
开发了一个B2C(企业针对个人开展的电子商务活动——观察者网注)网站,走支付宝
和银联支付通道,年营业额千万级(作者注:当然实在太少了,我只是说这个网站投入
了实际的运营)。
也就在那个时候,我对12306嗤之以鼻,觉得他们做得太烂了,认为自己能带队花几百
万半年时间做个好的出来。于是我狂妄地想做一个开源的订票系统给他们。我花了一个
星期时间思考建立数据模型,思考到库存这一步的时候,我才发现,12306的库存复杂
性比淘宝、京东高很多倍,运算量也大很多倍。传统的分布式数据库、缓存、负载均衡
技术并不能恰好满足12306的需求。
在平时,12306也就是个正常的电商网站。但一到黄金周,12306就是一个全站所有商品
都秒杀,所有SKU都是动态库存的变态。
即使不考虑线下既有的电话、代售点等渠道,要实现一个12306,最少最少也是千万级
别的硬件投入(作者注:这是当时的估算,没有精算,可能与实际相差较大,总之,我
说得不一定对,12306的业务也许没我说的那么复杂,但也绝不是某些... 阅读全帖 |
|
x***4 发帖数: 1815 | 44 具体看paper。简单地说: 挖bitcoin需要解一个难的数学问题;现在公开的方法基本
就是枚举法;所以运算量对所以参与者是一样的,除非你找到迅速解这个数学问题的方
法。 |
|
s******u 发帖数: 501 | 45 搜索的算法其实可以很简单。假设每一站都保存一个seat map,卖出去就把对应bit标1
。要买的车票是从站m到n,只要把seatmap[m] ... Seatmap[n]全部用或运算合并,找
第一个为0的位就可以了。这样子的搜索数据量和运算量都很有限。
了。 |
|
w***g 发帖数: 5958 | 46 从算法上来说,其实光预测对方的最佳对策还不够,还要预测对方的决策树,
适时往对方决策树薄弱的方向进攻,迫使对方增加搜索范围和运算量。
这个事情做起来怕是很难。 |
|
x****u 发帖数: 44466 | 47 你先花十天半个月折腾机器,搭起来后也是很多问题,临时把运算量加大不行,临时不
用也不行,只能稳定匀速跑满240天 |
|
x****u 发帖数: 44466 | 48 你说反了
AWS是起步时合适,自己运算量大到云都不合适了再投资基础设施 |
|
x****u 发帖数: 44466 | 49 识别猫当然是进化结果
卷积核权值都是天生的,所以才有密集恐惧,恶心等深层次感觉,而CNN BP训练里主要
运算量就是卷积
人类天生可以感知生物,至于区分猫狗只是微调
你对NN和生物了解都不够啊 |
|
x****u 发帖数: 44466 | 50 CNN的BP主要运算量就是训练卷积层,生物天生卷积层就有预设权值 |
|