|
o******1 发帖数: 1046 | 2 多谢回复!
是不是我原先把mapper数理解错了?这里mapper数是不同mapper function的个数,不
是执行map method的计算单元的个数。其实我就一个hdfs file,但是可以很大,会存
在不同的datanode上。
我想问的是如何设置processor数目(类似mpi里调用MPI_Comm_size函数得到的process
count),或者core的个数因为现在的processor都是多核的,或者也许是node数如果
hadoop不能设置到处理器的话。总之是想设置最小的可设置的计算单元,看看程序的
scalability with # of processes(or cores or nodes),1个计算单元需要多少时间
,2个4个8个16个...各自需要多少计算时间。这个改怎么设置呢?
谢谢!
input |
|
s****r 发帖数: 125 | 3 mapper 一般是一个input file 一个mapper,但是如果超出一个limit就会split input
,你可以把你的input file merge成一个,同时设置 mapreduce.input.
fileinputformat.split.minsize 到一个比较大得值去保证不会split
reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很
清楚。 |
|
a**********0 发帖数: 422 | 4 因为mapper的输出属于中间结果 难于测试
但是有一个package叫mockito 可以做mock up
如果搞hadoop开发 可以尝试一下 |
|
y**b 发帖数: 10166 | 5 lvm,想用lvreduce/lvextend调整一下逻辑分区大小,
看到/dev/mapper/VG0-LV0和/dev/VG0/LV0,
这二者就是一回事吧?
那么用e2fsck和resize2fs命令的时候,用哪个都行? |
|
s******e 发帖数: 128 | 6 那么我写的mapper到底是去算 还是 还是<
word: adult>那?
如果我需要写三个mapper分别统计,
adult>那不是很重复吗?因为每个mapper都是要把整个log读一遍 (我知道大数据会
分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
己的那部分数据)而且如果adult/kid要进一步细分成female/male的话第三个mapper原
本可以建立在第一个mapper的基础上,分开就用不上了。
还有种可能性就是所有东西都放在一个mapper里,那从mapper里输出什么那,反正不是
key:value那样简单了。
Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可
以考虑。 |
|
j******s 发帖数: 48 | 7 好吧,自己回答一下思路,虚心求各路大神拍,给点意见
第一题应该是建立一个binary tree,然后recursive求每一个节点的左右子树的最高高
度,他们和就是在这一位上的largest distance,可以online做,但是需要在每个节点
保存左右子树的高度并且动态更新。
o(n) time + O(n) space
第二题,
Assumption:
1 Log file is typically very small, operations are append, delete and read.
2 Cluster is built on Hadoop, which has a chunk size of 64MB, roughly, and
it might be too large and inefficient if we use this chunk size for the log
file.
3 Log information is typically not very important, less effort is needed for
redundan... 阅读全帖 |
|
y******u 发帖数: 804 | 8 最近在上coursera的课。看到一个mapreduce的伪实现,参考一下。
in python
MapReduce.py
import json
class MapReduce:
def __init__(self):
self.intermediate = {}
self.result = []
def emit_intermediate(self, key, value):
self.intermediate.setdefault(key, [])
self.intermediate[key].append(value)
def emit(self, value):
self.result.append(value)
def execute(self, data, mapper, reducer):
for line in data:
record = json.loads(line)
mapper(rec... 阅读全帖 |
|
y******u 发帖数: 804 | 9 如果想连连mapreduce算法,下面python script能模拟
MapReduce.py
import json
class MapReduce:
def __init__(self):
self.intermediate = {}
self.result = []
def emit_intermediate(self, key, value):
self.intermediate.setdefault(key, [])
self.intermediate[key].append(value)
def emit(self, value):
self.result.append(value)
def execute(self, data, mapper, reducer):
for line in data:
record = json.loads(line)
mapper(record)
... 阅读全帖 |
|
T*********n 发帖数: 45 | 10 这事烦得我都不知道从何说起。有点长。。。。
事情的背景:
我在东北一家保险公司工作。组里干活的几乎都是中国人,但是有两个印度人S和D,一
男一女。这两个人天天臭在一起,水平太滥。跟其他印度人一样,他们爱吹,爱抢
credit。我们research大头呢,为了提高本组民工的技术水平,同时要搞一个良好的工
作community,就搞了一个叫pod的活动。这个活动是什么意思呢?就是每周五下午的四
个小时,组内各种level的人坐在一起,几个人一组搞一个小topic。我呢,就被分到了
big data。
这个big data组呢,开始有7个人:那两个印度人,我,我teammate S(中国人,已跳
槽),我老板 W(中国人,已跳槽),一个avp(美国人)M,还有一个中立的印度人A。
这个印度人A还好,我们一起共事过,不抢功劳,能力也不错。印度人S自从A升职了,
就各种讥讽A。但是A也不计较,大忙不管,小忙还是帮帮。我老板是这个team的lead。
当时大家是这么计划的,其个人做三个小的topic,分组时这个样的:
topic A: 我老板,我,S。 我们很实际,直到一周四个小时也做不了啥,于是... 阅读全帖 |
|
a**********0 发帖数: 422 | 11 我在看一遍超烂的教程 mahout in action
他举了一个例子 在hadoop环境下实现一个recommender system
具体就是需要自己实现若干mapper和reducer 唯一用到mahout的就是要用
RecommenderJob这个class 作为顶层的driver to glue mapper和reducers
我和你的疑问类似 我既然用mahout 干什么还自己实现mapper和reducer啊!
我的理解是 常见的用法是我们自己写非map reduce风格的代码 也就是driver 这个
driver定义输入输出 调用mahout的算法的api feed in输入输出
mahout就是个java library 我们在自己的代码(driver)中调用mahout的java class
比如recommender或者classifier 最后打成个包jar 用hadoop命令去run 不知道是不是啊 |
|
s******c 发帖数: 1920 | 12 mapper和reducer当然都在cluster上运行
常见的实现是mapper把中间结果sharding好写在本地硬盘里,reducer去每个mapper那
里去把所有对应这个reducer的中间数据通过网络读过来。 |
|
b******A 发帖数: 4967 | 13 请问一下各位大神,有木有办法可以通过一次indexing两个HBase table
目前我的morphline-hbase-mapper.xml长这个样子,这个需要怎么改额,任何建议都非
常感谢!
$ vim morphline-hbase-mapper.xml
阅读全帖 |
|
t****t 发帖数: 6806 | 14 我是把/var放在raid上的.
Filesystem 1K-blocks Used Available Use% Mounted on
rootfs 7675920 3825480 3460524 53% /
/dev/root 7675920 3825480 3460524 53% /
/dev 1027396 224 1027172 1% /dev
/dev/mapper/VolGroup00-LogVol02
1570051812 271884356 1218413424 19% /NAS
/dev/mapper/VolGroup00-LogVol01
302379456 385384 286634072 1% /home
/dev/mapper/VolGroup00-LogVol00
|
|
g***l 发帖数: 2753 | 15 这个是我现在的磁盘空间,那个第一个/dev/mapper/VolGroup00-LogVol00 是个什么东
西啊?怎么把他给清理干净啊?
我有一个mysql的数据库在这个机器上跑,感觉很快就被塞满了。谢谢了。
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/VolGroup00-LogVol00
8063408 7645844 7964 100% /
/dev/mapper/VolGroup00-LogVol02
1773912 172840 1510960 11% /home
/dev/sda6 194442 18927 165476 11% /boot
tmpfs 1037096 96 1037000 1% /dev/shm
Filesystem |
|
g****y 发帖数: 436 | 16 请问下面MAPPER的type应该如何写?先谢过了!
//hist_helper.h
namespace hist_aux {
template<
typename C,
typename T,
typename MAPPER
>
void getHist(const T& vals,
MAPPER pf,
C& res) {
typename T::const_iterator it;
for (it = vals.begin(); it != vals.end(); ++it) {
res.at(pf(*it))++;
}
}
} /* namespace hist_aux */
namespace hist{
class Hist {
public:
// ctr & dtr
// ...
size_t count_mapper(size_t v);
size_t index_mapper(size_t v);
size_t pixe... 阅读全帖 |
|
t****a 发帖数: 1212 | 17 这玩意还是要自己定义mapper combiner reducer,有点麻烦,不过描述上写可以手工
做多步计算,也挺好。
Java里有很好的大数据东西啊,比如cascading。它把mapper reducer给抽象掉了,由
机器来帮助分配mapper reducer,程序员可以专心做计算逻辑。因此可以建立复杂的计
算流程。 |
|
k****o 发帖数: 76 | 18 Pig里面可以define某一列为mapper key吗? 比如load之后:
data=load '$INPUT' as (AA, BB, CC);
我经常需要garantee $OUTPUT里面相同的BB要在同一个reducer... partition by 可以
,但是
要自己定义hash function,有没有可以快速定义哪一个是mapper key的?pig
默认是random hashing的吧?目前知道
join by BB之后的BB自动默认为mapper key,但是order by 和group by 都不garentee
。。。
当然,实在不行自己写个mapreduce直接输入输出就可以,但是pig应该有这种不需要脱
裤子放屁的方式吧?
HIVE里面有方法也可以!
多谢大家! |
|
b******y 发帖数: 660 | 19 一门户网站的电面
用hadoop做wordcount,输入是一个很大的文件,#distinct term小于100,最后的结果
不写到HDFS,要print到console。
mapper就跟wordcount例子一样啦。我说用1个reducer,用LOG.info 将count print到
console,他说这个可能只print在reducer的console,而这个reducer在哪个node无法确
定。
他提示到在mapper用counter,不过没有什么头绪。希望各位指点一下。 |
|
b******y 发帖数: 660 | 20 一门户网站的电面
用hadoop做wordcount,输入是一个很大的文件,#distinct term小于100,最后的结果
不写到HDFS,要print到console。
mapper就跟wordcount例子一样啦。我说用1个reducer,用LOG.info 将count print到
console,他说这个可能只print在reducer的console,而这个reducer在哪个node无法确
定。
他提示到在mapper用counter,不过没有什么头绪。希望各位指点一下。 |
|
X*K 发帖数: 87 | 21 我不懂瞎猜的
public static class Map extends Mapper
>
就是说这个mapper把input pair
LongWritable, Text (行id,行文本)
map到output pair
Text, IntWritable(词,数字1)
而map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
的前两个参数就是input pari,Context应该就是hadoop句柄,然后
context.write(word, one);
就是输出output pair.
reducer应该也类似 |
|
X*K 发帖数: 87 | 22 我不懂瞎猜的
public static class Map extends Mapper
>
就是说这个mapper把input pair
LongWritable, Text (行id,行文本)
map到output pair
Text, IntWritable(词,数字1)
而map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
的前两个参数就是input pari,Context应该就是hadoop句柄,然后
context.write(word, one);
就是输出output pair.
reducer应该也类似 |
|
W***o 发帖数: 6519 | 23 再请教一下大家:
下面是我的mapper code:
public class CrimeMapper extends Mapper
IntWritable>
{
protected static final int DATE_INDEX = 2;
protected static final int CRIME_TYPE_INDEX = 5; // column index
protected static final int YEAR_INDEX = 17; // column index
private static final Log _log = LogFactory.getLog(CrimeMapper.class);
private static final IntWritable ONE = new IntWritable(1);
@Override
public void map(LongWritable key, Text... 阅读全帖 |
|
s******e 发帖数: 128 | 24 经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写? |
|
p*****2 发帖数: 21240 | 25
word:
我们可以分开讨论。我觉得就第一个例子来说,
average height break down into gender
mapper:
gender->height
reducer:
gender-> (sum of height, count of people)
mapper:
gender-> average of height |
|
u*****o 发帖数: 1224 | 26 我想问问partitioner的作用是什么呢?
比如那个word count的例子
mapper input(line, text) --> output(word, frequency)
combiner input(word, frequency) --> output(word frequency)
combines results from multiple mappers..
Then we use reducer to sort words according to index (e.g. 26 reducers and
each take words for a particular alphabet).
这个例子中如果fit in partitioner呢? |
|
发帖数: 1 | 27 https://www.linkedin.com/in/krishna-pai-987571a
就是这位哥们,上来先mumble 一下自己的project,各种machine learning big data,然
后就开始冷笑呵呵
第一题:
write the interface of cache
我猜他是在问LRU cache,于是我说用python,给出get(), put(),因为我不知道他是不是
用key value store,所以就没有没有给出function signature,然后他问能不能java或
者c++,因为他不熟悉python,然后说了一些abstract class的东西,我说interview我一
般用python,三哥然后hehe,电话我这边听到他笑得好开心
第二题:
use map-reduce to implement matrix multiplication for large and sparse
matrix C=A*B
这个上来就刷新了我对大公司面试的理解,我以为都是考leetcode或者system design
我面的不是senior... 阅读全帖 |
|
|
n**r 发帖数: 1587 | 29 呃,我现在在台式机上,audio input device有两个,一个是microphone(high
definition aud),一个是microsoft sound mapper,我选的前一个,声音特别小。难
道要选sound mapper?笔记本还没试呢
刷插件,不是得先装一堆插件才能刷吧?哪去装啊... |
|
J********a 发帖数: 5208 | 30 mapreduce 不过就是
cat INPUT | mapper | sort | reducer > output
只不过 mapper/sort/reducer都是分布的。 |
|
T**S 发帖数: 319 | 31 系统(fedora 8)说没空间了,下面是一些信息:
[root@localhost ~]# df -k
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/VolGroup-lv_root
51606140 51606140 0 100% /
tmpfs 1028140 276 1027864 1% /dev/shm
/dev/sda1 495844 28517 441727 7% /boot
/dev/mapper/VolGroup-lv_home
184168532 507404 174305864 1% /root
[root@localhost ~]# cd /
[root@localhost /]# du -sk
du: cannot access `./pr... 阅读全帖 |
|
y**b 发帖数: 10166 | 32 首次parted /dev/dm-2
print显示的是:
Model: linux device-mapper (linear) (dm)
disk /dev/dm-2: 12.2TB
sector size: 512B/512B
partition table: loop
number start end size filesystem flags
1 0.00B 12.2TB 12.2TB ext4
mklabel gpt之后print显示的是:
Model: linux device-mapper (linear) (dm)
disk /dev/dm-2: 12.2TB
sector size: 512B/512B
partition table: gpt
number start end size filesystem flags |
|
y**b 发帖数: 10166 | 33 我把这些信息给gdisk作者:
soilblast2[/home/yanb]# ll /dev/mapper/
total 0
crw-rw----. 1 root root 10, 58 Feb 18 18:23 control
lrwxrwxrwx. 1 root root 7 Feb 18 18:24 vg_soilblast2-lv_home -> ../dm-2
lrwxrwxrwx. 1 root root 7 Feb 18 18:24 vg_soilblast2-lv_root -> ../dm-0
lrwxrwxrwx. 1 root root 7 Feb 18 18:23 vg_soilblast2-lv_swap -> ../dm-1
soilblast2[/home/yanb]# ll /dev/dm*
brw-rw----. 1 root disk 253, 0 Feb 18 18:24 /dev/dm-0
brw-rw----. 1 root disk 253, 1 Feb 18 18:23 /dev/dm-1
brw-rw---... 阅读全帖 |
|
X****r 发帖数: 3557 | 34 First, you can't deduce a template parameter from return type.
Second, returning a vector by value is neither efficient nor flexible,
e.g.
what if you want to accumulate histogram?
Third, you don't have to specify vector as input or output.
So what you want is probably something like the following:
template
void histo(const V& vals, const MAPPER& pf, C& result) {
typename V::const_iterator it;
for (it = vals.begin(); it != vals.end(); ++it) {
resu... 阅读全帖 |
|
g****y 发帖数: 436 | 35 不好意思,贴代码时临时修改了一些东西。
这个头文件改动过后编译器没有报错,但是class Hist里面的function call我不知道
如何写那个MAPPER的type,所以总觉得是不是可以有简单一点的办法实现这个MAPPER的
多样化。 |
|
n*******h 发帖数: 67 | 36 First find a string that you know will definitely not appear as a word in
the text files. Let's say the string is 'xiaojiangsb'. Then in your mapper:
emit both (word, 1) and ('xiaojiangsb', 1) for every word
After reducing with your reducer, you will get the total word count
associated with key 'xiaojiangsb'.
To be efficient, you should use a combiner on the mapper nodes. |
|
s******e 发帖数: 128 | 37 经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写? |
|
c***C 发帖数: 139 | 38 把log文件分割成chunks, feed给mapper得出sum跟count,reducer处理各个mapper来的
sum和count |
|
n****1 发帖数: 1136 | 39 俺一直觉得logic layer与persistence layer之间严格分开的做法, 甚至放在不同的进
程里面, 这样overhead太大. 所以一直对PL/SQL procedure programming很有兴趣, 可
惜这样做会被Oracle vendor locking.
俺个人对MapReduce的理解就是分布式的PL/SQL procedure, mapper/reducer是把业务
逻辑植入到persistence layer里面以提高性能. 这也应该是Cassandra和Hbase之间的
主要区别. Cassandra基本就是个key-value storage with random partition, 而
Hbase则与mapreduce概念结合更密切, 甚至提供coprocessor用来实现传统数据库中的
trigger等功能. Coprocessor应该就是个long standing mapper/reducer吧.
大家觉得这种架构可行吗? |
|
n****1 发帖数: 1136 | 40 不懂啥是External caching, 是kernel buffer/cache之类的,还是在logic layer对
query做cache?
第二种的话mapper/reducer也应该是可以做的, 当然PL/SQL procedure的操作底层的能
力远远弱于mapper/reducer |
|
h*****d 发帖数: 53 | 41 怎么这么多软件,不知道下载哪一个,我第一天用SAS,就要最基本的那个版本就好了。
哪位高人指点一下:该选哪个?(我点的base SAS,进去还有这么多,晕了)
http://www.sas.com/apps/demosdownloads/setupintro.jsp
For SAS®9.21
SAS Universal Viewer (92.120 10w20 - MAY 2010)
SAS Universal Viewer (92.110 09w09 - FEB 2009)
SAS XML Mapper (92.110 09w09 - FEB 2009)
For SAS®9.2
Search Interface to SAS Content 1.5 (92.120 10w34 - AUG 2010)
SAS XML Mapper (92.15 08w23 - JUN 2008)
Search Interface to SAS Content 1.4 (92.110 09w28 - JUL 2009)
PROC CD... 阅读全帖 |
|
j*****n 发帖数: 1545 | 42 跟 node 有啥关系? 该 mapper 跑就 mapper 跑,该 reducer 跑就 reducer 跑 |
|
p*****c 发帖数: 20445 | 43 Science评价还是不错的,专门写了News:
Science 5 November 2010:
Vol. 330. no. 6005, p. 747
DOI: 10.1126/science.330.6005.747
News of the Week
Neuroscience:
China's Brain Mappers Zoom In on Neural Connections
Kristen Minogue
Anyone in business, and even just fans of The Apprentice, knows that
connections matter. Neuroscientists understand that, too, which is why a
research team in China has gone to great lengths to create the most detailed
three-dimensional map yet of all the connections between the neurons in... 阅读全帖 |
|
u*****a 发帖数: 9489 | 44 看到好多人分享了这篇东西,阴谋论的味道很浓,但貌似还是有不少民众买账。将军们
来鉴定下?
Hillary, Wal-Mart And The Red Chinese Secret Police - How The Clinton's
Helped China Conquer America
http://allnewspipeline.com/Hillary_Wal_Mart_Red_Chinese_Secret_
"To understand Wal-Mart, you have to have a handle on Arkansas. And to
figure out Arkansas, you have to be knowledgeable about the Rockefellers.
And to fathom the Red Chinese Secret Police, you have to know a lot about
the richest family in the world." Sherman Skolnick
By Stefan Stanford -... 阅读全帖 |
|
e***y 发帖数: 4307 | 45 其实荷兰有公司搞多光电子束光刻机想跟euv竞争的,叫mapper,美国曾经也有,但是
被ASML打压的厉害。euv是个大忽悠从客户圈了那么多钱,再不量产就忽悠不下去了,
所以现在号称2018要hvm,谨慎不看好。 |
|
l*****f 发帖数: 2198 | 46 FLAG 那些算法数据结构题跟这个比就是小儿科
阿里面试题:
一面:电话面试:80分32秒)
1.自我介绍?
2.做过哪些项目?项目中遇到哪些难点,你是怎样解决的?单点登录系统说一下?分布
式缓存的使用场景?(说好的基础呢,上来就是项目,毫无准备,导致好多东西都记不
起来了。面试官还说“那你说一个你记得的项目”,手动无奈。。。)
3.你实习的时候JDK用的是那个版本,这个版本有什么新的特性?
4.G1回收器和其他回收器有什么区别?
5.垃圾回收为什么会停顿?哪些对象可能作为GCRoots?
6.垃圾回收分代收集算法?为什么会有两个Survivor区?new一个对象会保存在哪里?
7.Java内存模型?volatile关键字,使用场景?原子性的理解?先行发生原则?
8.场景题:现在有三个线程,同时start,用什么方法可以保证线程执行的顺序,线程
一执行完线程二执行,线程二执行完线程三执行?
9.你是怎么理解线程安全的?HashMap是线程安全的么?如果多个线程同时修改HashMap
时会发生什么情况?
10.ConcurrentHashMap底层原理?每个版本的实现上有什么区别?
11... 阅读全帖 |
|
l*****f 发帖数: 2198 | 47 FLAG 那些算法数据结构题跟这个比就是小儿科
阿里面试题:
一面:电话面试:80分32秒)
1.自我介绍?
2.做过哪些项目?项目中遇到哪些难点,你是怎样解决的?单点登录系统说一下?分布
式缓存的使用场景?(说好的基础呢,上来就是项目,毫无准备,导致好多东西都记不
起来了。面试官还说“那你说一个你记得的项目”,手动无奈。。。)
3.你实习的时候JDK用的是那个版本,这个版本有什么新的特性?
4.G1回收器和其他回收器有什么区别?
5.垃圾回收为什么会停顿?哪些对象可能作为GCRoots?
6.垃圾回收分代收集算法?为什么会有两个Survivor区?new一个对象会保存在哪里?
7.Java内存模型?volatile关键字,使用场景?原子性的理解?先行发生原则?
8.场景题:现在有三个线程,同时start,用什么方法可以保证线程执行的顺序,线程
一执行完线程二执行,线程二执行完线程三执行?
9.你是怎么理解线程安全的?HashMap是线程安全的么?如果多个线程同时修改HashMap
时会发生什么情况?
10.ConcurrentHashMap底层原理?每个版本的实现上有什么区别?
11... 阅读全帖 |
|