关于wordcount的讨论汇总 - 话题女王

全部话题 - 话题: wordcount

z*c
发帖数: 63

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

题目就是经典的wordcount，给一个string array，让统计每个词的出现次数，并按出
现次数多少排序打印出。
如{“a”, "a", "b", "c"} 就打印
a 2
b 1
c 1
不过要求使用一种定义的新语言来写，该语言中的data structure仅包括array，
hashmap。且array和hashmap都是immutable的，也就是不能直接往hashmap里插数，只
能重新创建hashmap在原有的基础上加一个数。
我第一个思路是用hashmap存string和其出现次数。感觉难处有三：一是连把array过一
遍的for loop都不好写，因为该语言中无变量，连i++也没法用，二是hashmap在loop里
创建新的，属于局部变量，下一个loop里貌似就没法用到了三是如何sort结果也还没
想出来
第二个思路就是用mapreduce，该语言中包括map和reduce的方法，举的例子中map对一
个integer的array整体加减乘除一个常数得到一个新的array，reducer可以对一个
integer的数组进行sum或者两两相乘得到一个数作为结果... 阅读全帖

A******g
发帖数: 612

来自主题: JobHunting版 - 想学学Hadoop,从wordcount开始

http://wiki.apache.org/hadoop/WordCount
这个程序的逻辑是看明白了，神奇的是在main里好像从来就没指定哪个是key，哪个是
value,就给了个输入输出文件名
这个map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
还有reduce function是怎么知道那个是key 那个是value?
请大牛说说？

A******g
发帖数: 612

来自主题: JobHunting版 - 想学学Hadoop,从wordcount开始

n**********s
发帖数: 9

来自主题: JobHunting版 - text justification 有人ac吗

看看你漏了什么
public class Solution {
public ArrayList fullJustify(String[] words, int L) {
ArrayList result=new ArrayList();
ArrayList currentLine=new ArrayList();
int i=0;
while(i currentLine=new ArrayList();
int len=0;
int wordLength=0;
int wordCount=0;
do {
len+=words[i].length()+1;
wordLength+=words[i].lengt... 阅读全帖

发帖数: 1

来自主题: Programming版 - java初学者求指点这段code

初学java和编程，想请大家指点指点下边这段code有什么办法可以写得更好？
这个方法输入是一个word (String)，然后想找到word里有几个音节，规则如下：
1.a,o,u,e,i,y都算元音
2.如果两个或以上元音连续，则只算一个音节
3.如果e是词的最后一个字母，而此外这个词没有别的音节，那这个e不算音节
4.不能用regex，得用loop
int numSyllables(String word)
{
char[] wordarray = word.toCharArray();
int wordcount = 0;
char prev = 0;
for (int i = 0; i < wordarray.length; i++) {
char cur = wordarray[i];
if (i > 0) prev = wordarray[i-... 阅读全帖

s***o
发帖数: 2191

来自主题: Programming版 - java初学者求指点这段code

只用loop大概也就这样了。按我的习惯改一下的话
// not verified
char[] wordarray = word.toCharArray();
int wordcount = 0;
boolean isPreviousVowel = false;

for (int i = 0; i < wordarray.length; i++) {
char cur = wordarray[i];
if (cur == 'e' && i == wordarray.length - 1 && !isPreviousVowel)
{
return wordcount == 0? 0 : wordcount +1;
}
if ("aoeuiyAOEUIY".contains("" + cur)) {
if (!isPreviousVowel) {
... 阅读全帖

s*i
发帖数: 388

来自主题: Java版 - hadoop java 里面的SomeClass.class 是什么意思？ (转载)

【以下文字转载自 Programming 讨论区】
发信人: sci (ence), 信区: Programming
标题: hadoop java 里面的SomeClass.class 是什么意思？
发信站: BBS 未名空间站 (Sat Feb 12 23:52:24 2011, 美东)
刚开始学习hadoop，看到如下代码
JobConf conf = new JobConf(WordCount.class);
查了下doc，定义如下：
JobConf(Class exampleClass)
Construct a map/reduce job configuration.
这种 WordCount.class 的函数参数究竟是传了什么进去 JobConf 的ctor?
是这个WordCount的binary ？还是一个instance？还是String？

s*i
发帖数: 388

来自主题: Programming版 - hadoop java 里面的SomeClass.class 是什么意思？

刚开始学习hadoop，看到如下代码
JobConf conf = new JobConf(WordCount.class);
查了下doc，定义如下：
JobConf(Class exampleClass)
Construct a map/reduce job configuration.
这种 WordCount.class 的函数参数究竟是传了什么进去 JobConf 的ctor?
是这个WordCount的binary ？还是一个instance？还是String？

x******a
发帖数: 6336

来自主题: Programming版 - wiki上关于map的这段程序为什么不work？

是不是第二个while是错的，请问怎么改？
#include
#include
#include
int main()
{
std::map wordcounts;
std::string s;
while (std::cin >> s && s != "end")
++wordcounts[s];
while (std::cin >> s && s != "end")
std::cout << s << ' ' << wordcounts[s] << '\n';
}

b******y
发帖数: 660

来自主题: JobHunting版 - 电面被问到hadoop了

一门户网站的电面
用hadoop做wordcount，输入是一个很大的文件，#distinct term小于100，最后的结果
不写到HDFS，要print到console。
mapper就跟wordcount例子一样啦。我说用1个reducer,用LOG.info 将count print到
console,他说这个可能只print在reducer的console，而这个reducer在哪个node无法确
定。
他提示到在mapper用counter，不过没有什么头绪。希望各位指点一下。

b******y
发帖数: 660

来自主题: JobHunting版 - 电面被问到hadoop了

s******n
发帖数: 226

来自主题: JobHunting版 - Facebook面经

把所有4 letter长的单词建立trie 每个node加上wordCount 和 prefixCount，每一层
选的时候以 wordCount+prefixCount为标准，选五个最大的

c***z
发帖数: 6348

来自主题: DataSciences版 - Pig word count

Got asked several times in interviews.
lines = LOAD 'sample.txt' AS (line:chararray);
words = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) as word;
grouped = GROUP words BY word;
wordcount = FOREACH grouped GENERATE group, COUNT(words);
DUMP wordcount;

j******a
发帖数: 55

来自主题: JobHunting版 - 新鲜Amazon面经

如果并行化grep，等价于mapreduce中的哪一步。我不是很sure，我觉得grep都返回结
果了，应该算
是两个都沾上吧。我类比一下wordcount，觉得把每行并行化，算是map，把结果匹配出
来返回是
reduce。有没有行家解释一下？

d********w
发帖数: 363

来自主题: JobHunting版 - [salesforce面经]performance engineer

职位：performance engineer
1) 3-tier web application, analyze possible bottleneck
2) calculate power(int x, int y)
3) sorted array,find intersection,
4) jvm heap management, gc mechanism, block, c++/java difference
5) merge sorted array, how to optimize in large scale.
6) given a client and server, server transfer a large data file e.g. (10M)
, traffic is full in network, how to improve the performance. i.e. response
time reduce to half of original version.
7) Wordcount how to improve performance,... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - hadoop面试和学习总结

随着大数据的盛行，Hadoop也流行起来。我面过很多hadoop相关的公司，包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的（使用hadoop)：apple, expedia，comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的，我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好，既有高屋建瓴，又有微观把握，
比如mapreduce各个子阶段，经常问道join在里面也有代码实现，
google的三量马车，GFS, MapReduce, BigTable
入门：
知道MapReduce大致流程，map, shuffle, reduce
知道combiner, partition作用，设置compression
搭建hadoop集群，master/slave 都运行那些服务
HDFS，replica如何定位
版本0.20.2->0.20.203->... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - hadoop面试和学习总结

d********w
发帖数: 363

来自主题: JobHunting版 - 我的面试高频题

coding:
- JOIN: nested join, hash join, sort-merge join
- Number: Fibonacci, prime，随机取文件某一行
- String: strstr, wordcount
- Tree: height, lca, balance tree
- Heap: 查找最大的k个数
- DP: 最大连续子串和
- array: find a key in rotated array, 去除重复字符
- linkedlist: 是否有环，插入结点，删除重复结点
- 递归回溯：变化很多，这方面需要大量练习
知识性：
多线程，mutex/semaphore
java GC
C++ virtual, smart pointer
regex使用
数据库：知道btree, 索引
search engine: 倒排表,拉链，稀疏索引，空间向量模型，tf*idf,
large scale data: hash, consistent hash, bloom filter, bitmap, 外排序，
partition
分布式：CAP理论，gos... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 我的面试高频题

d********w
发帖数: 363

来自主题: JobHunting版 - 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？

为啥那这本书来准备面试呢？如果你没有hadoop的经验，也不用看这些的。
如果你的职位要求里面确实有hadoop，可以去检查或者搜索一下以下问题
１.　mapreduce的几个阶段
２.　pig, hive的大致设计和比较，（结合sql写法）
３.　wordcount, terasort的mapreduce程序写法
４.　hadoop在不同节点启动了那些服务
５.　secondary sort, partition如何用
６.　什么是nosql，ACID跟BASE比较
７.　hadoop的不足和最新改进（next generation)
8. HDFS的如何做到scalability和高可靠性
这些基本问题掌握后，可以找找资源，比如你提到那边书，GFS/MapReduce/BigTable
paper, hadoop summit 2012大会上的slides，youtube或者cloudera上面的hadoop视频
海量数据处理倒是经常会问到，比如如何在多台机器上找中位数，n个数找最大k个数，
搜索如何做索引，以前有个帖子专门总结过。

B********t
发帖数: 147

来自主题: JobHunting版 - 发苹果电面面经攒人品

这个行吗
int wordCount(string s)
{
int i = 0, count = 0;
while(i < s.size())
{
while(i < s.size() && s[i] == ' ')
i++;
if(s[i] != ' ' && s[i] != '\0')
count++;
while(i+1 < s.size() && s[i+1] != ' ')
i++;
i++;
}
return count;
}

c********t
发帖数: 5706

来自主题: JobHunting版 - 发苹果电面面经攒人品

好吧
int wordCount(String s) {
int count = 0, n = s.length();
for (int i = 0; i < n; i++) {
if (s.charAt(i) != ' ') {
count++;
while (i < n && s.charAt(i++) != ' ');
i--;
}
}
return count;
}

X*K
发帖数: 87

来自主题: JobHunting版 - 想学学Hadoop,从wordcount开始

我不懂瞎猜的
public static class Map extends Mapper >
就是说这个mapper把input pair
LongWritable, Text （行id，行文本）
map到output pair
Text, IntWritable（词，数字1）
而map function
public void map(LongWritable key, Text value, Context context) throws
IOException, InterruptedException
的前两个参数就是input pari，Context应该就是hadoop句柄，然后
context.write(word, one);
就是输出output pair.
reducer应该也类似

A******g
发帖数: 612

来自主题: JobHunting版 - 想学学Hadoop,从wordcount开始

有道理，所以map的input就是以input file的行读的

IntWritable

X*K
发帖数: 87

来自主题: JobHunting版 - 想学学Hadoop,从wordcount开始

A******g
发帖数: 612

来自主题: JobHunting版 - 想学学Hadoop,从wordcount开始

有道理，所以map的input就是以input file的行读的

IntWritable

f*********1
发帖数: 75

来自主题: JobHunting版 - rocket fuel 面试题

大家看这个行不行？
由2^k 得到启发
建一个大表每行表示一个ad，每列表示frequent query string 的一个词，表的值表
示单词是否出现在某一个ad里。
wordcount new... york ...department ...store ... sale.
ad1 5 1 1 1 1 1
ad2 1 0 1 0 0 1
ad3 4 1 1 1 1 0
...
adn 1 1 0 0 0 0
建表需要O(N)
查询需要先生成query string的所有subsets，这一步需要2^k, 然后与(&)query
string match对应列vector，选与值为1的ads。最后再用第一列的word cou... 阅读全帖

f*********1
发帖数: 75

来自主题: JobHunting版 - rocket fuel 面试题

y******u
发帖数: 804

来自主题: JobHunting版 - 一道大数据题，求最优解。

最近在上coursera的课。看到一个mapreduce的伪实现，参考一下。
in python
MapReduce.py
import json
class MapReduce:
def __init__(self):
self.intermediate = {}
self.result = []
def emit_intermediate(self, key, value):
self.intermediate.setdefault(key, [])
self.intermediate[key].append(value)
def emit(self, value):
self.result.append(value)
def execute(self, data, mapper, reducer):
for line in data:
record = json.loads(line)
mapper(rec... 阅读全帖

y******u
发帖数: 804

来自主题: JobHunting版 - 请教可以在线练习 map reduce 的地方？

如果想连连mapreduce算法，下面python script能模拟
MapReduce.py
import json
class MapReduce:
def __init__(self):
self.intermediate = {}
self.result = []
def emit_intermediate(self, key, value):
self.intermediate.setdefault(key, [])
self.intermediate[key].append(value)
def emit(self, value):
self.result.append(value)
def execute(self, data, mapper, reducer):
for line in data:
record = json.loads(line)
mapper(record)
... 阅读全帖

s******e
发帖数: 128

来自主题: JobHunting版 - 如何用hadoop 析取各种数据？

经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。但实际上经常要从log文件中析取所有的各种数据：举个例子：要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写？

l*n
发帖数: 529

来自主题: JobHunting版 - 如何用hadoop 析取各种数据？

你这些都是counting & summing problems吧，只不过是写mapper/reducer的时候key/
value可能不是单一的field。比如你的mean height over gender，就是gender vs.
height_ONE，height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
wordcount那么狭隘的。

z*c
发帖数: 63

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

ding

m*****k
发帖数: 731

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

some stupid idea,
throwing a brick waiting for jade , hehe
suppose the alphabet only has {a,b,c,d}
create map: char->array
a: [1,0,0,0]
b: [0,1,0,0]
c: [0,0,1,0]
d: [0,0,0,1]
and init result as [0, 0, 0, 0]
then just use the mapreduce way to add corresponding
array each time seeing a char?

j*d
发帖数: 96

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

LZ 你确定不允许用整形变量？
如果允许，可以用递归解，recursiveFunc ( String A[], int i).

p*****2
发帖数: 21240

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

用spark一句话的事情

z*c
发帖数: 63

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

很有创意。。。不过我举这个例子比较片面，实际上是general的string array哈

z*c
发帖数: 63

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

已经定义的都是immutable的，不过我貌似也没看明白允许用整形变量的话递归咋弄？

l******t
发帖数: 55733

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

这不就是个FP的基本题？

z*c
发帖数: 63

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

额，那是啥？

p*****2
发帖数: 21240

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

学学haskell就明白了。
FP里没有循环，只有递归

e*******s
发帖数: 1979

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

最近haskell为何又火起来了

p*****2
发帖数: 21240

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

val xs = List('a', 'a', 'b', 'c');
val res = xs.groupBy(identity).map(i=>(i._1, i._2.size)).toList.sortBy(_
._2)(implicitly[Ordering[Int]].reverse)

t**r
发帖数: 3428

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

Scala怎么写

(_
★ 发自iPhone App: ChineseWeb 8.7

p*****2
发帖数: 21240

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

就这么写

W***o
发帖数: 6519

来自主题: JobHunting版 - 求问一道用新语言写wordcount的题

回贴看看

s****r
发帖数: 3

来自主题: JobHunting版 - 求问data processing类的题目长啥样

LZ这两天要面一个公司SE，但manager说这职位侧重在data analysis上，所以不但会面
我programming，还会面一些data processing的问题。
LZ没有统计的知识，做过一些hadoop的projects。猜想data processing的问题，难道
是要写个wordcount的mapreduce？
有没有了解的同学呢

w********p
发帖数: 948

来自主题: JobHunting版 - 请帮我看下这道coding exercise

程序终于吭哧吭哧写完了。
公司说要和我面聊suggestion. 头疼。不知道要建议个啥。
恳请大牛们批评指教。与其被别人challenge, 不如在这预先知道的说。一定发包子感
谢的说。
https://github.com/selinaGit/SortNFiles
为了搏眼球，牺牲下隐私。貌似无盐，切勿下载哦, 否则是小猪🐷
还有主要的reference 是下面这个link. 照葫芦画瓢的说。
http://www.oracle.com/technetwork/articles/java/fork-join-42260
我想请教下在上面的link里为什么要用static method return new object.
而不是用非static method "public Document fromFile(File file)" 然后 new
WordCounter obj
调用obj.Document fromFile(File file)
没有concurrency 的经验。问题有点傻。求教的说。
我的理解是这样的话，fork之前，file就read到li... 阅读全帖

s******c
发帖数: 1920

来自主题: JobHunting版 - MLGB 的

这得是招team lead的题目了吧。
第一题你说用zk来管hbase的master来实现HA，但single point of failure在hdfs nn
这里说不通啊。hdfs也有zk来做nn的HA的啊。
第二题就是 mapreduce的wordcount 变形啊，不用hbase的

partition
point
namenode
data

o******y
发帖数: 4377

来自主题: Translation版 - 征文我的翻译从业感想

呵呵，偶知道你在米国混的
去 Proz.com 或 ATA 随便搜搜在美国本土的translator，就知道市场价了
（咱们中文的算便宜的）
不过就像我前面说的，翻译公司都要求用 Trados，并用 TM leverage wordcount
当然，高级的文学翻译啊这些可能会有所不同

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天