x*******6 发帖数: 262 | 1 package org.spring.cassandra.example;
import java.net.InetAddress;
import java.net.UnknownHostException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.data.cassandra.core.CassandraOperations;
import org.springframework.data.cassandra.core.CassandraTemplate;
import com.datastax.driver.core.Cluster;
import com.datastax.driver.core.Session;
import com.datastax.driver.core.querybuilder.QueryBuilder;
import com.datastax.driver.core.querybuilder.Select;
public cla... 阅读全帖 |
|
|
s*****y 发帖数: 11 | 3 目前在用datastax的connector,https://github.com/datastax/spark-cassandra-
connector,问题是感觉API好像很少,文档中只看到了saveToCassandra,select,
collect几个API,像update之类的操作,没有看到相应的API?
还有一个问题就是datastax的connector好像同时支持CQL操作和sparkSQL操作,这两个
有啥区别吗? |
|
p*****2 发帖数: 21240 | 4 大数据可能是现在科技界与VC界最关注的热词了。似乎和大数据沾不上边的互联网公司
、甚至是传统产业公司,都没前途。
是热词,则必有泡沫。而在泡沫之下,一些真的在创造与挖掘大数据价值的公司、特别
是创业公司,倒未见得为人所知。
这里就有一些可能还处于“隐身模式”中的公司,它们目前正忙于完成最后的收尾工作
,将把足以改变“游戏规则”的技术呈现在世人面前。
这些大数据创业公司的团队,很多是来自于谷歌、Facebook这些巨头。其中有些创业公
司以分析为重点,有些以内存数据库为重点。此外,还有其他一些创业公司则正在大力
开发NoSQL数据库(非关系型数据库)技术。
美国科技博客网站Business Insider为我们列出了14家正在崛起的大数据创业公司。它
们的业务、模式,或许值得国内关注大数据创业的同学借鉴。可以看到,这些公司后面
,都是实力雄厚的VC。
“大数据之所以有趣,是因为它将是未来许多年时间里的一个重大投资领域。大数据浪
潮将持续很久,而不会是18个月或24个月以后就宣告终结。”风险投资公司Accel
Partners普通合伙人李平曾说。
这些已获得融资的大数据创业公司的增长动量正... 阅读全帖 |
|
l*****t 发帖数: 2019 | 5 这个太一眼难尽了。而且也没看懂Cassandra vs Cloudera, 你说Cassandra vs HBase
or Datastax.vs Cloudera?
要通关,我觉得攻略是
1)看老paper:amazon dynamo, google bigtable 2002 acm paper, google dremel
paper
2)看网上评论,你的问题就是keywords
3)future hadoop:
a) YARN
b) all different angles to shift focus from offline to online/nearline.
i)Hive SQL enhancement, Tez, sting, phoenix
ii) impala, dremel (以及non-hadoop, spark/shark, mpp)
c) Hbase datacenter aware
d) 网上搜下 "Hortonworks objectives 2013"
e) Watch HadoopSummit 2013 vid... 阅读全帖 |
|
d********w 发帖数: 363 | 6 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,都是未来的希望啊。
# Spark
Spark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算
)框架,
MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现... 阅读全帖 |
|
|
|
|
|
|
|
|
o**********e 发帖数: 18403 | 14 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖 |
|
q*******h 发帖数: 82 | 15 Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。 |
|
q*******h 发帖数: 82 | 16 Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。 |
|
m******o 发帖数: 571 | 17 感觉DataStax还挺有名的
卖Apache Cassandra的
Business model有点像卖hadoop的cloudera, hortonworks
不过这种公司通常不需要特别多的software engineer,不一定适合老中 |
|
l*****t 发帖数: 2019 | 18 hadoop components : mapreduce,hdfs(copycat of google GFS or now colossus),
hbase(copycat of google.BigTable or spanner now), hive, pig, zookeeper,oozie
,flume,sqoop,hcat.etc
hadoop version: many v1 that's.0.x and YARN aka verson hadoop 2.0
hadoop vendor: apache, cloudera, mapr, hortonworks. arguably (who claims
support MapReduce) greenplum, datastax( Cassandra vendor that supports
MapReduce on CFS), Hadapt(Hadoop and SQL),heard couchdb,mongodb all supports
MapReduce now.
Hadoop new:
1) impala ... 阅读全帖 |
|
|
w**z 发帖数: 8232 | 20 Those are the ones I got this week. According to my profile, the openings
should be Sr. Java Developer.
Amazon Silk Browser , ServiceSource, Fitbit, WalmartLabs, Datastax,
AppDynamics, Spokeo, Salesforce, Symantec, Rocket Fuel |
|
p*****2 发帖数: 21240 | 21
Cassandra和ML怎么work的?你们用datastax了吗? |
|
x****h 发帖数: 298 | 22 2 different projects completed by 2 new graduates. We are using datastax. |
|
p*****2 发帖数: 21240 | 23
ML是在Hadoop上还是datastax上?你们有用Hadoop,Hbase吗? |
|
x****h 发帖数: 298 | 24 2 different projects completed by 2 new graduates. We are using datastax. |
|
|
|
|
d********w 发帖数: 363 | 28 给大家一个Startup List做参考: 这些基本上都是这两年很hot的公司,规模在100人以
上,分布在云存储,大数据,consumer internet,健康应用,移动app,大家在
crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就可以
了。
dropbox
continunity
cloudera
hortonworks
mapr
fitbit
glassdoor
tango
uber
sharethis
coursera
quora
evernote
pinterest
airbnb
snapchat
think big
houzz
couchbase
databricks
myfitnesspal
pure storage
quixey
flipboard
lyft
datastax
path
qubole
Su... 阅读全帖 |
|
d********w 发帖数: 363 | 29 给大家一个Startup List做参考: 基本上都是这两年很hot的公司,规模在100人左右
,分布在云计算,大数据,consumer internet,健康,通讯,支付,生活类app,大
家在crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就
可以。声明:这些公司都是本人自己总结的,创业公司那么多,精选上市或者收购可能
性大的,肯定还有很多有前景的我不知道的。
Small to Medium size:
continunity: 大数据
mapr:Hadoop
tango:通讯
sharethis:社会化广告
coursera:在线教育
quora:问答
pinterest:图片分享
think big:大数据
houzz:房屋装修
couchbase:数据库
databricks:大数据
myfitnesspal:健康
pure storage:flash存储
quixey:App搜索
flipboard:在线杂志
lyf... 阅读全帖 |
|
|
|
p*****2 发帖数: 21240 | 32
Amazon不可能没有现成的。关系到大数据的话,哪里那么容易造轮子?如果你能造的话
,去datastax或者databricks吧,还去A干啥呀?
这种题不可能是考察你会不会造轮子。如果那样的话,goodbug可以轻易把面试官干死
。 |
|
w**z 发帖数: 8232 | 33 目测今年Cassandra summit 比去年人多一倍也不止
Datastax 拿了106M series E funding, 总funding 189.7M |
|
d********w 发帖数: 363 | 34 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
d********w 发帖数: 363 | 35 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
d********w 发帖数: 363 | 36 这里面创业公司太多了,包含BI工具,数据存储和挖掘,应用等,我就简单说一些我感
兴趣的,其他的可以参考。
Palantir:超过百亿美金估值,已经是超级独角兽,就单独列出来。Peter Thiel创办
大数据公司。数据集成、 信息管理和定量的分析。连接到商业、 专有和公共数据集,
并发现趋势、 关系和异常,包括预测分析。
##############
Database
MemSQL: 号称最快的内存数据库。
GraphSQL:高效、大容量的图形数据库和分析平台,创始人是国人。
MongoDB: 分布式文件存储的数据库
DataStax:主力开发Cassandra。
Hadoop
Altiscale: 提供的Hadoop作为一种服务(HAAS)
Qubole:Hadoop服务提供商,Pinterest也是它的客户
Splice Machine: 基于Hadoop的实时大数据技术公司,支持SQL 事务处理,并针对OLAP
和OLAP 应用进行实时优化处理
机器学习
Paxata:应用机器学习技术处理大数据难题
0xdata:H2O 的算法是面向业务流程——欺诈或趋势预测
Everstrin... 阅读全帖 |
|
|
h**********n 发帖数: 897 | 38 这些个搞2B的公司值得去吗?还有mongo、datastax。
有人了解吗? |
|
m*p 发帖数: 1331 | 39 ES > datastax .
No mongodb. it's dying. |
|
a****o 发帖数: 21 | 40 elastic 本身用在text search上, 通常需要其他的有constraint的db和它一块。 感
觉前途就那样啊, datastax感觉前途更好啊, 毕竟cassandra 现在那么火。 |
|
b**********5 发帖数: 7881 | 41 这个傻逼datastax, 我觉得cassandra流行, 就是这傻逼公司搞的。 我看见这个
createtable primarykey, 就想吐。。。 |
|
|
|
b**********5 发帖数: 7881 | 44 谁有个save protocolbuf class from spark streaming to cassandra的example?要
java的, 不要scala的。 我就是store 一个protocol buf blob to cassandra from
spark streaming。 我在用datastax driver。
找了半天在网上, 竟然没一个concrete example |
|
|
|
o**********e 发帖数: 18403 | 47 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: 硅谷地区中型 Startup List
发信站: BBS 未名空间站 (Fri Aug 15 01:29:58 2014, 美东)
给大家一个Startup List做参考: 这些基本上都是这两年很hot的公司,规模在100人以
上,分布在云存储,大数据,consumer internet,健康应用,移动app,大家在
crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就可以
了。
dropbox
continunity
cloudera
hortonworks
mapr
fitbit
glassdoor
tango
uber
sharethis
coursera
quora
evernote
pinterest
airbnb
snapchat
think big
houzz... 阅读全帖 |
|
w**z 发帖数: 8232 | 48 Cassandra 是nosql db , 有很多client ,Java 主要有Hector 和
astyanax. 只是一个jar file 而已。网上Cassandra 资料多的很。要快,找
slideshare .要系统学,看datastax doc . |
|
p***c 发帖数: 5202 | 49 Thanks
看来都不喜欢mango啊,呵呵。我主要是看了点教程,发现mongodb仿佛很简单,几下就
配置好,可以写程序了。
Cassandra我到datastax下载了他们的enterprise server,安好,跑了个demo,发现和
mongo很多不一样 |
|
r*******k 发帖数: 44 | 50 我估计您只读过一些过时blog, 网文之类,没有hands on experience. (sorry,
really not nice)
NameNode HA 在2012年中已经比较成熟,我知道的多数公司2012年底已经upgrade
their production systems to use Namenode HA. 如果你听说过spof of NN,那是
2013年前的事情了,以后千万别提了。
这个领域的特点,所有的事情的都在moving around。如果你不肯定,请不要乱说。
这里不适合讨论cassandra hbase 实现细节一类,理论上的东西和实际差远了,看似美
好的东西实际实现两码事,你需要做很多的妥协来实现这些美好的目标,而cassandra
需要妥协的地方的太多了。不要以为fb, twitter ,还有其他一些公司drop cassandra
是没有strong reason的。再踢一次,cassandra 是fb 最早开发的,现在他们已经退
出很久了。
关于mapred on CFS,that's my point, 只是粘合: cassandra imp... 阅读全帖 |
|