由买买提看人间百态

topics

全部话题 - 话题: 析取
1 (共1页)
s******e
发帖数: 128
1
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写?
s******e
发帖数: 128
2
来自主题: Programming版 - 如何用hadoop 析取各种数据?
经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写?
t**********8
发帖数: 1683
3
关于红十字会的N个谣言是怎么流传的?
来源: dingx 于 2013-05-06 07:20:58 [档案] [博客] [旧帖] [转至博客] [给我悄悄
话] 本文已被阅读:156次 字体:调大/调小/重置 | 加入书签 | 打印 | 所有跟帖 |
加跟贴 | 查看当前最热讨论主题 四月网(M4.cn):关于红十字会的N个谣言是怎么流
传的?
4月20日,四川省雅安市芦山县发生7.0级地震。当日9时59分,中国红十字总会就在微
博上发布了第一条赈灾信息。然而,微博中“考察灾情”的表述被网友质疑“太官腔”
,由此,网络对红十字会的关注愈演愈烈。
根据中青舆情监测室的统计,“红十字会动态”已经成为震后60小时之内排名第五的热
度词。其中,微博是此次网络舆情最密集的平台。此前,中青舆情监测系统曾经分析取
样信息,发现批评、质疑红十字会的信息超过半数。
究其原因,一方面,“郭美美事件”后一系列的舆情事件带来的信任危机还没有消弭;
另一方面,与红十字会救援、募捐等举措有关的网络谣言也起到了推波助澜的作用。
上世纪50年代前后,美国社会心理学家奥尔波特和波斯特曼给出了一个决定谣言的公式
:谣言... 阅读全帖
f****a
发帖数: 847
4
来自主题: Military版 - 东北不是一夜丢掉的
没啥逻辑,就是看别人怎么谈历史。自己分析取精华弃糟粕
1894年9月15日,日本明治天皇在广岛大本营召开御前会议,策划侵略中国的
战争。于是战争首先在朝鲜展开,日军于9月15日分四路向平壤进攻。此前,日军
进攻牙山时,清军仓促退到平壤,共1万多人。清军统帅并没有作战争部署,面对
日军大举进攻,他只想弃城逃跑,唯有总兵左宝贵坚持抗敌。左宝贵一面派兵监
视住统帅不许其逃跑,一面率领军队坚守玄武门,杀伤了大量敌人。他后来被敌
人重炮击中而牺牲,平壤失陷,残余清军向北撤退,过鸭绿江,退回中国境内,
许多清兵都死伤在撤退的路上。
黄海海战是9月17日爆发的。在此之前,北洋海军提督丁汝昌率舰队曾护送运
兵船从大连去鸭绿江口的大东沟,在返航途中遭到伪装的日舰的突然袭击,发生
海战。在激战中,中国舰队击沉了日舰西京丸,击毁了日舰扶桑丸和清田丸,并
击伤松岛、赤城、比睿等日舰,中国水师也损失了致远、经远、扬威、超勇等舰
只。这么多舰船受损,是因为北洋舰队指挥不一造成的。"致远"号受伤后,管带
邓世昌开足马力向日旗舰"吉野"号撞击,不幸被日舰鱼雷击中,全舰250人壮烈牺
牲。
10月下旬,日军渡过鸭绿江侵... 阅读全帖
a***t
发帖数: 772
5
来自主题: Military版 - 低调点儿吧二鬼子们
看版上什么抵制星巴克,支持travel ban的
皇帝不急 急死太监!一边自己披着黄皮被白人看不起,一边看家狗一样帮白人主子咬
其它移民。
我不是说就应该无限制接纳难民,凡事应该具体分析取中庸之道
我只是对这批人的心理称奇!当年抗战的时候,据说最狠的不是日本鬼子而是韩国
二鬼子。什么原理?
黑奴电影里最丑的丑角是哪一个?是那个帮主子欺压黑奴的黑人管家
我说你们就低调一点吧,别搞得连白人主子都看不起你们
a***t
发帖数: 772
6
来自主题: USANews版 - 发起抵制星巴克
草!皇帝不急 急死太监!一边自己披着黄皮被白人看不起,一边看家狗一样帮白人主
子咬其它移民。
我不是说就应该无限制接纳难民,凡事应该具体分析取中庸之道
我只是对楼主这批人的心理称奇!当年抗战的时候,据说最狠的不是日本鬼子而是韩国
二鬼子。什么原理?
l*n
发帖数: 529
p*****2
发帖数: 21240
8
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
我觉得现在直接写map reduce的机会其实是很小了。
s******e
发帖数: 128
9
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
我就是想着如何把原来的工作和hadoop结合起来。
所要了解一下,原来的工作用hadoop怎么做。
你有答案吗? 看了下 icn给的link, 找不到和我相配的design pattern.
难道你们parse log都是为了得到一两类数据吗?
还是我没看懂文章的意思?
s******e
发帖数: 128
10
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
那用大数据的人整天在干嘛?
m**i
发帖数: 394
11
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
hadoop is just a tool. You need to design a parallel algorithm and then
implement it in hadoop.
First, you need to do paralle reading.
Second, each worker threads needs to computer the to 10 locally.
Then, combine all the results and get the real top 10.
l*n
发帖数: 529
12
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
你这些都是counting & summing problems吧,只不过是写mapper/reducer的时候key/
value可能不是单一的field。比如你的mean height over gender,就是gender vs.
height_ONE,height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
wordcount那么狭隘的。
p*****2
发帖数: 21240
13
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?

hive
h**********y
发帖数: 1293
14
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
pig/hive很多复杂逻辑不行的。
s******e
发帖数: 128
15
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
那么我写的mapper到底是去算 还是 还是<
word: adult>那?
如果我需要写三个mapper分别统计, adult>那不是很重复吗?因为每个mapper都是要把整个log读一遍 (我知道大数据会
分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
己的那部分数据)而且如果adult/kid要进一步细分成female/male的话第三个mapper原
本可以建立在第一个mapper的基础上,分开就用不上了。
还有种可能性就是所有东西都放在一个mapper里,那从mapper里输出什么那,反正不是
key:value那样简单了。
Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可
以考虑。
p*****2
发帖数: 21240
16
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?

cascalog
p*****2
发帖数: 21240
17
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?

word:
我们可以分开讨论。我觉得就第一个例子来说,
average height break down into gender
mapper:
gender->height
reducer:
gender-> (sum of height, count of people)
mapper:
gender-> average of height
k****r
发帖数: 807
18
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
学习学习
l*n
发帖数: 529
19
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
你提的问题的确涉及到mapreduce vs. analysis的核心:hdfs通用的分布式同数据的结
构化之间的矛盾。如果你的三种分析是独立的,那么你确实要分开run 3个MR的任务,
文件IO的确是要重复3次;如果三个分析的信息是结构化的,那么可以只搞一个复杂点
的MR任务,只做一次文件IO。这时候就变成了程序执行效率 vs. 程序编写效率之间的
矛盾了。
目前解决的方向好像都是在借鉴传统SQL的思路,比如是columnar storage,就是把结
构化信息拆开让不同组分分别存储,需要的时候再聚合,另一个是MR执行的推迟,让
engine对MR任务进行优化。Hive就是把query转成MR任务,有人说他慢就是因为生成的
MR方案以及query和query之间的优化还不够好吧。

word:
s******e
发帖数: 128
20
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
嗯 越学越不懂了。
s******e
发帖数: 128
21
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
然后你想说什么?
(不好意思我老延迟)
c*****a
发帖数: 808
22
来自主题: JobHunting版 - 如何用hadoop 析取各种数据?
MapReduce Design Patterns by Donald Miner and Adam Shook
你说的,里面都有,我做过类似的东西
b****h
发帖数: 1022
23
来自主题: Rock版 - 评《造飞机的工厂》
评《造飞机的工厂》
颜峻
  “忘掉手,腿上用力,使身体突然离开,离开我现在所在的
地方”,这就是张楚对自己所做的。通过背叛和超越,他和唯一
的敌人——自己——拥抱在一起,离开了音乐现在所在的地方。
  如果说上一张专辑的配器多少有点炫耀,那么这一次就有了
恰如其分的自信。涌动的节奏感和恍惚的音效是这张专辑听觉方
面的基础,吉他和鼓的音色既新潮又富于画面感,通过在键盘和
话筒两个轨道上作的手脚,张楚进一步获取了超现实主义的荒诞
感,另外,他还有一只健康的、可以把一个音拉长而不失厚度的
新嗓子。把这邪进自我的试管,用理性析取出一个紧凑的声响计
划,添加思想家的歌词,然后影射、腐蚀、变色、消失又出现,
总之是歌唱
f*********g
发帖数: 632
24
来自主题: WaterWorld版 - 搞数学的还是搞CS的牛?
那你设计一个算法,用于给任意合取或析取范式的语句一个成真指派,限定p时间内完
成。
设计好算法是计算机的内容。
r***u
发帖数: 1272
25
来自主题: WaterWorld版 - 污水处理技术问答(1~50)
1.问:CAST工艺,污泥脱水后的混合液直接排入进水泵房,导致进水COD,SS偏高,并
影响选择池的反硝化反应(因为前段爆气沉砂池已经降解了部分C源),应该如何解决

答:这是一个目前污水处理厂普遍被忽视的问题,即污泥脱水后的滤液回流至生化池后
对生化处理的影响问题。由于污泥脱水前要加调质药剂,如PAC和PAM,有些药剂有一定
的毒性,污泥脱水时可随滤液回流至生化反应池。处理这些滤液在技术上没问题,只是
成本问题,如果选用合适的污泥调质药剂,并控制好加药量以及脱水机的进泥量等,对
前面的生化处理就不会造成大的影响。还是强调的是,污泥脱水效果取决于污泥处理工
序的全过程管理,包括污泥浓缩池的管理。
2.问:“污泥泥龄”是怎样确定的?如何来控制?究竟是用排泥量确定它,还是用其
它来确定排泥量?
答:泥龄、F/M、等与其说是运行的控制参数,不如说是设计方面的参数,在工艺控制
中的只是参考参数。实际运行中排泥量通常是根据MLSS值加上经验来控制的,在SVI相
对稳定的情况下,也可用SV30来参考。
3.问:本厂用的是卡罗塞尔氧化沟工艺。有时装置的出水氨氮比进水还高,进水TP2.
5mg/L ... 阅读全帖
j*******7
发帖数: 6300
26
【 以下文字转载自 TrustInJesus 讨论区 】
发信人: jmsma2007 (James), 信区: TrustInJesus
标 题: [学术] 关于逻辑自身的“循环论证”问题
发信站: BBS 未名空间站 (Tue Apr 30 14:42:07 2013, 美东)
逻辑:沙滩上的象牙塔?——关于逻辑自身的“循环论证”问题
1.问题的提出
逻辑适用于研究任何对象,自然也适用于研究它自身。用逻辑研究其他对象非但不
会引起非议,反倒会被认为是必要的。然而,用逻辑研究逻辑本身就会导致如下责难:
这样做难道不是在循环论证吗?事实上,只有在预先设定了逻辑的无矛盾性和可靠性的
情况下,才有可能去论证逻辑的无矛盾性和可靠性。
卡汉在《逻辑和哲学》一书中就曾指出:“有些哲学家对于建造公理系统认为无多
大意义。其原因之一是,建造一个公理系统(至少是就逻辑的公理系统而论)包含着某
种程度的恶性循环。就拿谓词逻辑的一个公理系统为例。假定我们要证明这个系统无矛
盾,困难是这种无矛盾证明(在元语言中)不可避免地要使用那些‘推理工具’(如假
言推理规则),但这些工具是系统自身的推导规则。所以如果... 阅读全帖
j*******7
发帖数: 6300
27
逻辑:沙滩上的象牙塔?——关于逻辑自身的“循环论证”问题
1.问题的提出
逻辑适用于研究任何对象,自然也适用于研究它自身。用逻辑研究其他对象非但不
会引起非议,反倒会被认为是必要的。然而,用逻辑研究逻辑本身就会导致如下责难:
这样做难道不是在循环论证吗?事实上,只有在预先设定了逻辑的无矛盾性和可靠性的
情况下,才有可能去论证逻辑的无矛盾性和可靠性。
卡汉在《逻辑和哲学》一书中就曾指出:“有些哲学家对于建造公理系统认为无多
大意义。其原因之一是,建造一个公理系统(至少是就逻辑的公理系统而论)包含着某
种程度的恶性循环。就拿谓词逻辑的一个公理系统为例。假定我们要证明这个系统无矛
盾,困难是这种无矛盾证明(在元语言中)不可避免地要使用那些‘推理工具’(如假
言推理规则),但这些工具是系统自身的推导规则。所以如果这些‘推理工具’本身是
无矛盾的,那么证明对象语言的系统无矛盾是有价值的。但是如果它们是矛盾的呢,那
么这种证明就没有价值了。因此提出一个无矛盾证明,事情并没有取得任何进展,因为
我们事先得相信这些推理规则是无矛盾的,再用它们来证明无矛盾,从而又证明这些规
则本身无矛盾。对于系统中的公... 阅读全帖
S****9
发帖数: 8108
28
转个网易对这篇的评论:
高房价筑起的门槛,是一道货币门槛,与财富有关,与素质无关,更扯不上生态的尾巴
,它所追求的,是二元对立、是贫富划界而治的幻境。一个有钱人关起门来生活的城市
,时间长了,最终的结果怕也只会“窒息”而亡——道理很简单,大家都是富得很有优
越感,谁来淘米洗菜做衣裳?在所谓的素养尚且不能称斤论两卖的时候、在富人聚居尚
且无法构成正常社会生态链的时候,鼓吹“房价控制人口论”,其意义无非是以黑色幽
默的姿态,向公众展示了高房价的彻骨之毒——起码真正做到了富人“生活起来不能太
容易”。
从这个意义上说,咱得听懂“房价控制人口论”的用心良苦。一者,身为利益集团的代
言人,又不能拿个小喇叭鼓噪“房价跳水”,但内心里又心系群众、情牵民生,唯一能
做的只能是抛出“房价控制人口论”,表面支持房价高涨态势,实质揪出“控制人口”
等悖论;二者,眼下是楼市可能走向拐点的关键节点,房产税呼之欲出,地方版的“限
购令”遍地开花,二次调控箭在弦上,无论对于决策者、执行者,还是观望中的准房奴
,揭示高房价的危害尤为意义重大,陈会长语重心长独辟蹊径,言中肯綮。
一语惊醒梦中人。眼下来说,调控部门更当析... 阅读全帖
j*j
发帖数: 5564
29
来自主题: Zhejiang版 - 西溪成xixi,塘栖变塘棲
前些天看一个介绍西溪湿地的视频,听到西溪被叫做xixi, 觉得真的有点嘻嘻哈哈的
味道,让人不由得想笑。(在我老家,xixi是大人哄小孩尿尿的用语,相当于英语的
pee pee :)
普及普通话是好事,但是如果任由普通话压倒性地替换各地方言,则令人痛惜。
有些字,特别是那些用于地名的字,如果在一门象吴语这样被几亿人所采用的方言里有
不同于普通话的发音,那当地政府在登记地名时,不妨考虑用吴语发音来标注。
譬如“溪”字,在古汉语中主要念“qi”;康熙词典对之的解释是“【集韵】【韵会】
牵奚切”,也就是qi。现代的99年版《辞海》里对【溪】条的解释也是“xi,又读qi”。
一些无知的人也许以为浙江乡下人没文化,普通话没学好,所以把溪念作qi,却不知道
追根溯源起来,qi才是溪的正音。
可是这个连学术界权威都承认的不同读法,当地政府却不去坚持和宣传,而是媚俗地把
西溪标注为xixi,于是一个本来很好听的地名被搞得听起来有点滑稽。
同样,慈溪(ciqi)成了慈xi, 兰溪成了兰xi, 溪口成了xi口,等等等等。
溪字是江南地名中用得最多的字之一;因此,对吴语地区的人们来说,把溪盲目标注成
普通话... 阅读全帖
c***C
发帖数: 139
30
来自主题: Programming版 - 如何用hadoop 析取各种数据?
把log文件分割成chunks, feed给mapper得出sum跟count,reducer处理各个mapper来的
sum和count
s*****V
发帖数: 21731
31
来自主题: Programming版 - 如何用hadoop 析取各种数据?
这个IDEA清汤寡水的,为啥搞出这么大声势?
C***y
发帖数: 2546
32
来自主题: Programming版 - 如何用hadoop 析取各种数据?
扩展性好,写起来也不难
g****n
发帖数: 47
33
来自主题: Statistics版 - 什么形式的数组能做correlation?
Correlation分析取数,如果一组数是性别,用0,1代入查相关性也是准的?如果一组数
是医生诊断代码,比如99346,86750,我怎么改成能做correlation分析的数呢?还是只要
是数字就行不用改?
1 (共1页)