由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - Pig 问题请教
相关主题
请问大家有没有直接用java全程写mapreduce的程序的?请问有没有Pig Hive Hadoop SQL的速成课?
hive 里面的UDF会被几个node同时运行么?请问data scientist 相关职务,面试要准备什么?
你们用的都是pig吗?征集版标
data scientist对sql要求高吗现在的大数据技术的价值和功用有些被夸大了
Pig word count请问如何用JDBC连接R和Hive (转载)
做big data一定要是Ph.d吗?三星samsung创新部门招大数据工程师 (转载)
求Hadoop项目练手Impala v Hive
讨论,(Big)Data Engineer到底是个什么职位big set intersection in pig
相关话题的讨论汇总
话题: pig话题: bb话题: mapper话题: key话题: 里面
进入DataSciences版参与讨论
1 (共1页)
k****o
发帖数: 76
1
Pig里面可以define某一列为mapper key吗? 比如load之后:
data=load '$INPUT' as (AA, BB, CC);
我经常需要garantee $OUTPUT里面相同的BB要在同一个reducer... partition by 可以
,但是
要自己定义hash function,有没有可以快速定义哪一个是mapper key的?pig
默认是random hashing的吧?目前知道
join by BB之后的BB自动默认为mapper key,但是order by 和group by 都不garentee
。。。
当然,实在不行自己写个mapreduce直接输入输出就可以,但是pig应该有这种不需要脱
裤子放屁的方式吧?
HIVE里面有方法也可以!
多谢大家!
c***z
发帖数: 6348
2
不懂帮顶
另外楼主Google过了么
1 (共1页)
进入DataSciences版参与讨论
相关主题
big set intersection in pigPig word count
初入data science的困惑做big data一定要是Ph.d吗?
如何学习Hadoop?求Hadoop项目练手
求助: 一个用Hive提取feature的问题讨论,(Big)Data Engineer到底是个什么职位
请问大家有没有直接用java全程写mapreduce的程序的?请问有没有Pig Hive Hadoop SQL的速成课?
hive 里面的UDF会被几个node同时运行么?请问data scientist 相关职务,面试要准备什么?
你们用的都是pig吗?征集版标
data scientist对sql要求高吗现在的大数据技术的价值和功用有些被夸大了
相关话题的讨论汇总
话题: pig话题: bb话题: mapper话题: key话题: 里面