DS 两道OA面试题目 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - DS 两道OA面试题目

相关主题
● DS 两道OA面试题目	● leetcode一道题
● Divide num list into grp of consecutive nums with order preserved	● opt申请了以后没有receipt number如何查询进展？
● Interview street上的一题求助	● 借人气，问道题
● 问道面试题	● leetcode的container with most water题
● 请教一道面试题	● EE大牛进来帮个忙, 怎么校正这个英国同事的英语 (转载)
● facebook chat 更新好友在线状态 - 求解惑	● 这个isNumber错在哪里？
● find subset that sum up to given number	● 我应不应该现在申请H1B？
● leetcode container with most water	● 请教一个概率题目

相关话题的讨论汇总
话题: xml话题: oa话题: numbered话题: drew话题: links

进入JobHunting版参与讨论

1

(共1页)

r******e 发帖数: 244	1 有两道大题, 我不是学Data 分析的,所以觉得很难. 提示说只要四个小时就能完成, 可我花了四个小时都没看懂题目, 希望大家给点提示. 1.You have a chain with N links numbered 1 to N. Every minute, you draw a random link from a bag, and connect it to any other consecutively-numbered link that you drew before. For example, if you drew 4,1,5,7,3, you would end up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have drawn all N links and connected them into a single chain length N. M is the maximum number of subchain in this process. 我需要考虑 N = 8, 16, 32三种情况. N = 8 非常好做, 把所有情况列举出来计算就行 , 可是N= 16有2.0923e+013情况, N=32有10^35情况. 普通计算机根本无法在有限时间遍历. 我现在是采用了随机的方法,但是这样精度不够, 题目要求达到10数字. 各位大牛, 这里有啥敲门, 还是有些统计语言有优势,比如R, IDL, Stata. 我完全没学过这个. 2 You have a chain with N links numbered 1 to N. Every minute, you draw a random link from a bag, and connect it to any other consecutively-numbered link that you drew before. For example, if you drew 4,1,5,7,3, you would end up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have drawn all N links and connected them into a single chain length N. M is the maximum number of subchain in this process. 给了一些从 statistics overflow 来的xml 文件, 要求做数据分析. 比如Users.xml Posts.xml. 回答比如what fraction of posts contain the 5th most popular tag? How much higher is the average answer's score than the average question's? 这些文件都非常大, 我用16g电脑无法打开, 首先一个问题是如何分段读写这样的xml. 感觉是要生成一个数据库才能计算的, 不知道是不是这样, 如果是这样, 看来我要放弃这次OA, 完全不会, 只会用matlab处理数据. matlab完全无法load这么大量数据,别提处理了. 给点建议, 提示,要学习哪些内容,才能回答这些问题. 万分感谢.
m****4 发帖数: 2	2 我才注意到邮件，想今天晚上做，你有新思路不，目测这个题是递归问题，计算机算法有讲，我时统计的，也不大懂，第二题应该r能打开，能不能处理的了不一定，感觉要跪
Z**0 发帖数: 1119	3 去DS或者统计版问这个问题吧。 1. 这个题目，要问题是什么？最后出现的M，是这个题目的问题？问最大的subchains number（expected）？ 2. xml。基本编程问题吧。因为xml规范，使用你需要一个xml parser，分析每个xml file，这部是map。然后对需要的child，进行统计。（reduce）。看起来python比较容易处理这个问题，需要numpy，pandas。(py)spark更加是处理这个问题的利器了。
r******e 发帖数: 244	4 我强行用随即采样算了, 考虑过递归, 没想出来. 【在 m****4 的大作中提到】 : 我才注意到邮件，想今天晚上做，你有新思路不，目测这个题是递归问题，计算机算法 : 有讲，我时统计的，也不大懂，第二题应该r能打开，能不能处理的了不一定，感觉要 : 跪
r******e 发帖数: 244	5 1 M 就是最大的subchains , 要求它的分布. 2 本来考虑spark了,但是数据其实并不多, 就转换xml格式后统计了. 这个xml格式太肯跌了, 文件才200m, 结果打开后需要4g内存, 我转换格式后xls才50m. 不过估计是过不了了, 因为没有按大数据的思路去走.还是要把python numpy 和spark 好好学习下. subchains 【在 Z**0 的大作中提到】 : 去DS或者统计版问这个问题吧。 : 1. 这个题目，要问题是什么？最后出现的M，是这个题目的问题？问最大的subchains : number（expected）？ : 2. xml。基本编程问题吧。因为xml规范，使用你需要一个xml parser，分析每个xml : file，这部是map。然后对需要的child，进行统计。（reduce）。看起来python比较容 : 易处理这个问题，需要numpy，pandas。(py)spark更加是处理这个问题的利器了。
d******4 发帖数: 132	6 What is OA? end have the 【在 r******e 的大作中提到】 : 有两道大题, 我不是学Data 分析的,所以觉得很难. 提示说只要四个小时就能完成, 可 : 我花了四个小时都没看懂题目, 希望大家给点提示. : 1.You have a chain with N links numbered 1 to N. Every minute, you draw a : random link from a bag, and connect it to any other consecutively-numbered : link that you drew before. For example, if you drew 4,1,5,7,3, you would end : up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have : drawn all N links and connected them into a single chain length N. M is the : maximum number of subchain in this process. : 我需要考虑 N = 8, 16, 32三种情况. N = 8 非常好做, 把所有情况列举出来计算就行 : , 可是N= 16有2.0923e+013情况, N=32有10^35情况. 普通计算机根本无法在有限时间
Z**0 发帖数: 1119	7 尝试了一下。从网上下载了so的文件，发现posts.xml和comments.xml都不是足够规范的xml，parse出错。具体原因见如下thread。 http://stackoverflow.com/questions/7693515/why-is-elementtree-r 如果OA给的xml，不parse出错，要好处理一些。 subchains 【在 Z**0 的大作中提到】 : 去DS或者统计版问这个问题吧。 : 1. 这个题目，要问题是什么？最后出现的M，是这个题目的问题？问最大的subchains : number（expected）？ : 2. xml。基本编程问题吧。因为xml规范，使用你需要一个xml parser，分析每个xml : file，这部是map。然后对需要的child，进行统计。（reduce）。看起来python比较容 : 易处理这个问题，需要numpy，pandas。(py)spark更加是处理这个问题的利器了。
m****4 发帖数: 2	8 mcal(8) $m1 [1] 2.83254 $sd1 [1] 0.6118317 对一下第一个空，第二个在run,感觉要跪【在 r******e 的大作中提到】 : 我强行用随即采样算了, 考虑过递归, 没想出来.
Z**0 发帖数: 1119	9 今天早上继续数据检查。发现原始数据很坑人（网络上下载的SO提供的数据，xml格式），xml不完全合乎规范，主要是Body attribute。这个是用户问的问题，里边有code ，里边就可能出现xml的tag。比如：出现，这个正常是要转换为\&\<；pre \&\>;但是有地方转了，有地方没有转。如果OA问题里边不问和Body有关的细节问题，直接把Body 这个Attribute删除，可以解决很多头痛的问题。用spark，主要是spark提供的函数多，OA这些问题，都可以直接一句话，得到答案。 spark 【在 r******e 的大作中提到】 : 1 M 就是最大的subchains , 要求它的分布. : 2 本来考虑spark了,但是数据其实并不多, 就转换xml格式后统计了. 这个xml格式太肯 : 跌了, 文件才200m, 结果打开后需要4g内存, 我转换格式后xls才50m. : 不过估计是过不了了, 因为没有按大数据的思路去走.还是要把python numpy 和spark : 好好学习下. : : subchains
r******e 发帖数: 244	10 请问你用的这个是啥工具? 【在 m****4 的大作中提到】 : mcal(8) : $m1 : [1] 2.83254 : $sd1 : [1] 0.6118317 : 对一下第一个空，第二个在run,感觉要跪

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 请教一个概率题目	● 请教一道面试题
● 面试题	● facebook chat 更新好友在线状态 - 求解惑
● 几道面试题	● find subset that sum up to given number
● 欢迎大家积极讨论一个ms简单的算法面试题	● leetcode container with most water
● DS 两道OA面试题目	● leetcode一道题
● Divide num list into grp of consecutive nums with order preserved	● opt申请了以后没有receipt number如何查询进展？
● Interview street上的一题求助	● 借人气，问道题
● 问道面试题	● leetcode的container with most water题

相关话题的讨论汇总
话题: xml话题: oa话题: numbered话题: drew话题: links

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)