由买买提看人间百态

topics

全部话题 - 话题: datastax
1 2 3 下页 末页 (共3页)
x*******6
发帖数: 262
1
package org.spring.cassandra.example;
import java.net.InetAddress;
import java.net.UnknownHostException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.data.cassandra.core.CassandraOperations;
import org.springframework.data.cassandra.core.CassandraTemplate;
import com.datastax.driver.core.Cluster;
import com.datastax.driver.core.Session;
import com.datastax.driver.core.querybuilder.QueryBuilder;
import com.datastax.driver.core.querybuilder.Select;
public cla... 阅读全帖
c******o
发帖数: 1277
s*****y
发帖数: 11
3
目前在用datastax的connector,https://github.com/datastax/spark-cassandra-
connector,问题是感觉API好像很少,文档中只看到了saveToCassandra,select,
collect几个API,像update之类的操作,没有看到相应的API?
还有一个问题就是datastax的connector好像同时支持CQL操作和sparkSQL操作,这两个
有啥区别吗?
p*****2
发帖数: 21240
4
来自主题: JobHunting版 - 这几家公司如何?
大数据可能是现在科技界与VC界最关注的热词了。似乎和大数据沾不上边的互联网公司
、甚至是传统产业公司,都没前途。
是热词,则必有泡沫。而在泡沫之下,一些真的在创造与挖掘大数据价值的公司、特别
是创业公司,倒未见得为人所知。
这里就有一些可能还处于“隐身模式”中的公司,它们目前正忙于完成最后的收尾工作
,将把足以改变“游戏规则”的技术呈现在世人面前。
这些大数据创业公司的团队,很多是来自于谷歌、Facebook这些巨头。其中有些创业公
司以分析为重点,有些以内存数据库为重点。此外,还有其他一些创业公司则正在大力
开发NoSQL数据库(非关系型数据库)技术。
美国科技博客网站Business Insider为我们列出了14家正在崛起的大数据创业公司。它
们的业务、模式,或许值得国内关注大数据创业的同学借鉴。可以看到,这些公司后面
,都是实力雄厚的VC。
“大数据之所以有趣,是因为它将是未来许多年时间里的一个重大投资领域。大数据浪
潮将持续很久,而不会是18个月或24个月以后就宣告终结。”风险投资公司Accel
Partners普通合伙人李平曾说。
这些已获得融资的大数据创业公司的增长动量正... 阅读全帖
l*****t
发帖数: 2019
5
这个太一眼难尽了。而且也没看懂Cassandra vs Cloudera, 你说Cassandra vs HBase
or Datastax.vs Cloudera?
要通关,我觉得攻略是
1)看老paper:amazon dynamo, google bigtable 2002 acm paper, google dremel
paper
2)看网上评论,你的问题就是keywords
3)future hadoop:
a) YARN
b) all different angles to shift focus from offline to online/nearline.
i)Hive SQL enhancement, Tez, sting, phoenix
ii) impala, dremel (以及non-hadoop, spark/shark, mpp)
c) Hbase datacenter aware
d) 网上搜下 "Hortonworks objectives 2013"
e) Watch HadoopSummit 2013 vid... 阅读全帖
d********w
发帖数: 363
6
来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,都是未来的希望啊。
# Spark
Spark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算
)框架,
MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现... 阅读全帖
d********w
发帖数: 363
7
来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少
国人上榜。
# Spar... 阅读全帖
l*******e
发帖数: 127
8
来自主题: JobHunting版 - 求推荐:学习cassandra和 kafka的资料
Tutorial from datastax:
https://academy.datastax.com/courses
w**z
发帖数: 8232
9
来自主题: JobHunting版 - twitter ID 怎么变成 uuid?
why do you want to do that?
UUID is an auto generated ID, mostly based on time
http://docs.datastax.com/en/drivers/java/2.0/com/datastax/driver/core/utils
/UUIDs.html
If the ID from twitter is unique and random, use that as partition key
d*******r
发帖数: 3299
10
来自主题: Programming版 - Cassandra 里的 partition
二爷能否简要说下,datastax 上面课的怎么快速过一遍?
http://www.datastax.com/
看着有不少付费的课程?
p*****g
发帖数: 7
11
来自主题: Programming版 - cassandra async 问题

From http://stackoverflow.com/questions/22322510/is-there-a-good-way-to-check-whether-a-datastax-session-executeasync-has-throw
You could try something like this since the ResultSetFuture implements
ListenableFuture from the Guava library:
ResultSetFuture resultSetFuture = session.executeAsync("SELECT * FROM
test.t;");
Futures.addCallback(resultSetFuture, new FutureCallback() {
@Override
public void onSuccess(@Nullable com.datastax.driver.core.ResultSet
result... 阅读全帖
w**z
发帖数: 8232
12
来自主题: Programming版 - 谁用过Playorm 连nosql数据库
Hector is using
thrift which will be deprecated eventually. Go with cql. I would choose the
driver maintained by datastax.
https://github.com/datastax/python-driver
w**z
发帖数: 8232
o**********e
发帖数: 18403
14
来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖
q*******h
发帖数: 82
15
来自主题: JobHunting版 - hadoop面试和学习总结
Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。
q*******h
发帖数: 82
16
来自主题: JobHunting版 - hadoop面试和学习总结
Cassandra和hadoop应用领域根本不一样,不过datastax把它的版本里面的cassandra加
入了hadoop的map reduce,用cassandrafs代替了hdfs,如果你的数据都是数据库,这个
特性还是很无敌的。
不过hadoop一般都不是用来分析东西使用的,不是给website使用,所以down了一会也
没有关系吧。
m******o
发帖数: 571
17
来自主题: JobHunting版 - 这几家公司如何?
感觉DataStax还挺有名的
卖Apache Cassandra的
Business model有点像卖hadoop的cloudera, hortonworks
不过这种公司通常不需要特别多的software engineer,不一定适合老中
l*****t
发帖数: 2019
18
hadoop components : mapreduce,hdfs(copycat of google GFS or now colossus),
hbase(copycat of google.BigTable or spanner now), hive, pig, zookeeper,oozie
,flume,sqoop,hcat.etc
hadoop version: many v1 that's.0.x and YARN aka verson hadoop 2.0
hadoop vendor: apache, cloudera, mapr, hortonworks. arguably (who claims
support MapReduce) greenplum, datastax( Cassandra vendor that supports
MapReduce on CFS), Hadapt(Hadoop and SQL),heard couchdb,mongodb all supports
MapReduce now.
Hadoop new:
1) impala ... 阅读全帖
w**z
发帖数: 8232
w**z
发帖数: 8232
20
来自主题: JobHunting版 - 最近job market是不是更热了?
Those are the ones I got this week. According to my profile, the openings
should be Sr. Java Developer.
Amazon Silk Browser , ServiceSource, Fitbit, WalmartLabs, Datastax,
AppDynamics, Spokeo, Salesforce, Symantec, Rocket Fuel
p*****2
发帖数: 21240
21

Cassandra和ML怎么work的?你们用datastax了吗?
x****h
发帖数: 298
22
2 different projects completed by 2 new graduates. We are using datastax.
p*****2
发帖数: 21240
23

ML是在Hadoop上还是datastax上?你们有用Hadoop,Hbase吗?
x****h
发帖数: 298
24
2 different projects completed by 2 new graduates. We are using datastax.
w**z
发帖数: 8232
25
来自主题: JobHunting版 - 求推荐 Cassandra 学习资料
看datastax 网站
e********2
发帖数: 495
26
来自主题: JobHunting版 - 求推荐 Cassandra 学习资料
都用datastax啊!
p*****2
发帖数: 21240
27
来自主题: JobHunting版 - u已经17b了
joyent
datastax
d********w
发帖数: 363
28
来自主题: JobHunting版 - 硅谷地区中型 Hot Startup List
给大家一个Startup List做参考: 这些基本上都是这两年很hot的公司,规模在100人以
上,分布在云存储,大数据,consumer internet,健康应用,移动app,大家在
crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就可以
了。
dropbox
continunity
cloudera
hortonworks
mapr
fitbit
glassdoor
tango
uber
sharethis
coursera
quora
evernote
pinterest
airbnb
snapchat
think big
houzz
couchbase
databricks
myfitnesspal
pure storage
quixey
flipboard
lyft
datastax
path
qubole
Su... 阅读全帖
d********w
发帖数: 363
29
来自主题: JobHunting版 - 硅谷地区中型 Hot Startup List
给大家一个Startup List做参考: 基本上都是这两年很hot的公司,规模在100人左右
,分布在云计算,大数据,consumer internet,健康,通讯,支付,生活类app,大
家在crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就
可以。声明:这些公司都是本人自己总结的,创业公司那么多,精选上市或者收购可能
性大的,肯定还有很多有前景的我不知道的。
Small to Medium size:
continunity: 大数据
mapr:Hadoop
tango:通讯
sharethis:社会化广告
coursera:在线教育
quora:问答
pinterest:图片分享
think big:大数据
houzz:房屋装修
couchbase:数据库
databricks:大数据
myfitnesspal:健康
pure storage:flash存储
quixey:App搜索
flipboard:在线杂志
lyf... 阅读全帖
p*****2
发帖数: 21240
30
来自主题: JobHunting版 - 除了uapsd这两个startup大家怎么看?
datastax
databricks
p*****2
发帖数: 21240
31

怎么没有datastax?
p*****2
发帖数: 21240
32
来自主题: JobHunting版 - 来道A设计题大家头脑风暴一下

Amazon不可能没有现成的。关系到大数据的话,哪里那么容易造轮子?如果你能造的话
,去datastax或者databricks吧,还去A干啥呀?
这种题不可能是考察你会不会造轮子。如果那样的话,goodbug可以轻易把面试官干死
w**z
发帖数: 8232
33
来自主题: JobHunting版 - Cassandra未来的前景如何?
目测今年Cassandra summit 比去年人多一倍也不止
Datastax 拿了106M series E funding, 总funding 189.7M
d********w
发帖数: 363
34
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
d********w
发帖数: 363
35
来自主题: JobHunting版 - 后Hadoop时代的大数据架构
http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖
d********w
发帖数: 363
36
来自主题: JobHunting版 - 大数据创业公司篇
这里面创业公司太多了,包含BI工具,数据存储和挖掘,应用等,我就简单说一些我感
兴趣的,其他的可以参考。
Palantir:超过百亿美金估值,已经是超级独角兽,就单独列出来。Peter Thiel创办
大数据公司。数据集成、 信息管理和定量的分析。连接到商业、 专有和公共数据集,
并发现趋势、 关系和异常,包括预测分析。
##############
Database
MemSQL: 号称最快的内存数据库。
GraphSQL:高效、大容量的图形数据库和分析平台,创始人是国人。
MongoDB: 分布式文件存储的数据库
DataStax:主力开发Cassandra。
Hadoop
Altiscale: 提供的Hadoop作为一种服务(HAAS)
Qubole:Hadoop服务提供商,Pinterest也是它的客户
Splice Machine: 基于Hadoop的实时大数据技术公司,支持SQL 事务处理,并针对OLAP
和OLAP 应用进行实时优化处理
机器学习
Paxata:应用机器学习技术处理大数据难题
0xdata:H2O 的算法是面向业务流程——欺诈或趋势预测
Everstrin... 阅读全帖
p*****2
发帖数: 21240
37
来自主题: JobHunting版 - 谁给个c*的学习path?

datastax免费教程?
h**********n
发帖数: 897
38
来自主题: JobHunting版 - elasticsearch现在怎么样?
这些个搞2B的公司值得去吗?还有mongo、datastax。
有人了解吗?
m*p
发帖数: 1331
39
来自主题: JobHunting版 - elasticsearch现在怎么样?
ES > datastax .
No mongodb. it's dying.
a****o
发帖数: 21
40
来自主题: JobHunting版 - elasticsearch现在怎么样?
elastic 本身用在text search上, 通常需要其他的有constraint的db和它一块。 感
觉前途就那样啊, datastax感觉前途更好啊, 毕竟cassandra 现在那么火。
b**********5
发帖数: 7881
41
来自主题: JobHunting版 - 求推荐:学习cassandra和 kafka的资料
这个傻逼datastax, 我觉得cassandra流行, 就是这傻逼公司搞的。 我看见这个
createtable primarykey, 就想吐。。。
v******d
发帖数: 227
42
来自主题: JobHunting版 - 优质 pre-IPO startup list
来自于: https://blog.wealthfront.com/2016-career-launching-companies-list/
一共包含了136个优质 pre-ipo (mid size)的公司, 这些公司大都已经大到可以
sponsor签证, 但还处于高速发展期, 如果做得好, 未来n年内ipo就可能会上市. 如果
喜欢startup(非螺丝钉)氛围,但又想一定稳定性的童鞋,不妨可以尝试看看.
这个list对公司的要求是:
- 20m到300m的年收入
- 未来四年的预计yoy增长超过50%
* 去年的list里有8个公司已经上市, 4个被收购.
为什么应该选择med-sized company: https://blog.wealthfront.com/hot-mid-size-
silicon-valley-companies/
1ST DIBS • NEW YORK, NY
Online marketplace for high-end items
ACRONIS • BOSTON, MA
Storage management solut... 阅读全帖
b**********5
发帖数: 7881
43
你从来没code过?
这个product key, 就是front end给你的
比如http://www.amazon.com/gp/product/B007UZNS5W/
简单的说, B007UZNS5W 就是product key,amazon要display page, 就会去call 很
多不同的service的API。这page上不同的section, 基本就是不同amazon组干的活。
frequently bought together是某个小组搞的API。customer who bought this also
bought this, 又是一个API, 背后的ML, filter的logic还不一样。
你现在就是要设计一些core, 比如这个product, 有多少个merchant在sell,什么图
片。。。
sql么, 其实就比较烦, 我不大会。。 你自己看看http://code.tutsplus.com/articles/sql-for-beginners-part-3-database-relationships--net-8561。 这里主要就是一... 阅读全帖
b**********5
发帖数: 7881
44
谁有个save protocolbuf class from spark streaming to cassandra的example?要
java的, 不要scala的。 我就是store 一个protocol buf blob to cassandra from
spark streaming。 我在用datastax driver。
找了半天在网上, 竟然没一个concrete example

发帖数: 1

发帖数: 1
o**********e
发帖数: 18403
47
来自主题: SanFrancisco版 - 硅谷地区中型 Startup List (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: 硅谷地区中型 Startup List
发信站: BBS 未名空间站 (Fri Aug 15 01:29:58 2014, 美东)
给大家一个Startup List做参考: 这些基本上都是这两年很hot的公司,规模在100人以
上,分布在云存储,大数据,consumer internet,健康应用,移动app,大家在
crunchbase上面可以查询到最近的融资情况,如果能搞定其中的一些公司基本上就可以
了。
dropbox
continunity
cloudera
hortonworks
mapr
fitbit
glassdoor
tango
uber
sharethis
coursera
quora
evernote
pinterest
airbnb
snapchat
think big
houzz... 阅读全帖
w**z
发帖数: 8232
48
Cassandra 是nosql db , 有很多client ,Java 主要有Hector 和
astyanax. 只是一个jar file 而已。网上Cassandra 资料多的很。要快,找
slideshare .要系统学,看datastax doc .
p***c
发帖数: 5202
49
Thanks
看来都不喜欢mango啊,呵呵。我主要是看了点教程,发现mongodb仿佛很简单,几下就
配置好,可以写程序了。
Cassandra我到datastax下载了他们的enterprise server,安好,跑了个demo,发现和
mongo很多不一样
r*******k
发帖数: 44
50
来自主题: Java版 - BIgData对job market的影响?
我估计您只读过一些过时blog, 网文之类,没有hands on experience. (sorry,
really not nice)
NameNode HA 在2012年中已经比较成熟,我知道的多数公司2012年底已经upgrade
their production systems to use Namenode HA. 如果你听说过spof of NN,那是
2013年前的事情了,以后千万别提了。
这个领域的特点,所有的事情的都在moving around。如果你不肯定,请不要乱说。
这里不适合讨论cassandra hbase 实现细节一类,理论上的东西和实际差远了,看似美
好的东西实际实现两码事,你需要做很多的妥协来实现这些美好的目标,而cassandra
需要妥协的地方的太多了。不要以为fb, twitter ,还有其他一些公司drop cassandra
是没有strong reason的。再踢一次,cassandra 是fb 最早开发的,现在他们已经退
出很久了。
关于mapred on CFS,that's my point, 只是粘合: cassandra imp... 阅读全帖
1 2 3 下页 末页 (共3页)