由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - DS 两道OA面试题目
相关主题
DS 两道OA面试题目leetcode一道题
Divide num list into grp of consecutive nums with order preservedopt申请了以后没有receipt number如何查询进展?
Interview street上的一题求助借人气,问道题
问道面试题leetcode的container with most water题
请教一道面试题EE大牛进来帮个忙, 怎么校正这个英国同事的英语 (转载)
facebook chat 更新好友在线状态 - 求解惑这个isNumber错在哪里?
find subset that sum up to given number我应不应该现在申请H1B?
leetcode container with most water请教一个概率题目
相关话题的讨论汇总
话题: xml话题: oa话题: numbered话题: drew话题: links
进入JobHunting版参与讨论
1 (共1页)
r******e
发帖数: 244
1
有两道大题, 我不是学Data 分析的,所以觉得很难. 提示说只要四个小时就能完成, 可
我花了四个小时都没看懂题目, 希望大家给点提示.
1.You have a chain with N links numbered 1 to N. Every minute, you draw a
random link from a bag, and connect it to any other consecutively-numbered
link that you drew before. For example, if you drew 4,1,5,7,3, you would end
up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have
drawn all N links and connected them into a single chain length N. M is the
maximum number of subchain in this process.
我需要考虑 N = 8, 16, 32三种情况. N = 8 非常好做, 把所有情况列举出来计算就行
, 可是N= 16有2.0923e+013情况, N=32有10^35情况. 普通计算机根本无法在有限时间
遍历. 我现在是采用了随机的方法,但是这样精度不够, 题目要求达到10数字. 各位大
牛, 这里有啥敲门, 还是有些统计语言有优势,比如R, IDL, Stata. 我完全没学过这个.
2 You have a chain with N links numbered 1 to N. Every minute, you draw a
random link from a bag, and connect it to any other consecutively-numbered
link that you drew before. For example, if you drew 4,1,5,7,3, you would end
up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have
drawn all N links and connected them into a single chain length N. M is the
maximum number of subchain in this process.
给了一些从 statistics overflow 来的xml 文件, 要求做数据分析. 比如Users.xml
Posts.xml. 回答比如what fraction of posts contain the 5th most popular tag?
How much higher is the average answer's score than the average question's?
这些文件都非常大, 我用16g电脑无法打开, 首先一个问题是如何分段读写这样的xml.
感觉是要生成一个数据库才能计算的, 不知道是不是这样, 如果是这样, 看来我要放弃
这次OA, 完全不会, 只会用matlab处理数据. matlab完全无法load这么大量数据,别提
处理了.
给点建议, 提示,要学习哪些内容,才能回答这些问题.
万分感谢.
m****4
发帖数: 2
2
我才注意到邮件,想今天晚上做,你有新思路不,目测这个题是递归问题,计算机算法
有讲,我时统计的,也不大懂,第二题应该r能打开,能不能处理的了不一定,感觉要
Z**0
发帖数: 1119
3
去DS或者统计版问这个问题吧。
1. 这个题目,要问题是什么?最后出现的M,是这个题目的问题?问最大的subchains
number(expected)?
2. xml。基本编程问题吧。因为xml规范,使用你需要一个xml parser,分析每个xml
file,这部是map。然后对需要的child,进行统计。(reduce)。看起来python比较容
易处理这个问题,需要numpy,pandas。(py)spark更加是处理这个问题的利器了。
r******e
发帖数: 244
4
我强行用随即采样算了, 考虑过递归, 没想出来.

【在 m****4 的大作中提到】
: 我才注意到邮件,想今天晚上做,你有新思路不,目测这个题是递归问题,计算机算法
: 有讲,我时统计的,也不大懂,第二题应该r能打开,能不能处理的了不一定,感觉要
: 跪

r******e
发帖数: 244
5
1 M 就是最大的subchains , 要求它的分布.
2 本来考虑spark了,但是数据其实并不多, 就转换xml格式后统计了. 这个xml格式太肯
跌了, 文件才200m, 结果打开后需要4g内存, 我转换格式后xls才50m.
不过估计是过不了了, 因为没有按大数据的思路去走.还是要把python numpy 和spark
好好学习下.

subchains

【在 Z**0 的大作中提到】
: 去DS或者统计版问这个问题吧。
: 1. 这个题目,要问题是什么?最后出现的M,是这个题目的问题?问最大的subchains
: number(expected)?
: 2. xml。基本编程问题吧。因为xml规范,使用你需要一个xml parser,分析每个xml
: file,这部是map。然后对需要的child,进行统计。(reduce)。看起来python比较容
: 易处理这个问题,需要numpy,pandas。(py)spark更加是处理这个问题的利器了。

d******4
发帖数: 132
6
What is OA?

end
have
the

【在 r******e 的大作中提到】
: 有两道大题, 我不是学Data 分析的,所以觉得很难. 提示说只要四个小时就能完成, 可
: 我花了四个小时都没看懂题目, 希望大家给点提示.
: 1.You have a chain with N links numbered 1 to N. Every minute, you draw a
: random link from a bag, and connect it to any other consecutively-numbered
: link that you drew before. For example, if you drew 4,1,5,7,3, you would end
: up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have
: drawn all N links and connected them into a single chain length N. M is the
: maximum number of subchain in this process.
: 我需要考虑 N = 8, 16, 32三种情况. N = 8 非常好做, 把所有情况列举出来计算就行
: , 可是N= 16有2.0923e+013情况, N=32有10^35情况. 普通计算机根本无法在有限时间

Z**0
发帖数: 1119
7
尝试了一下。从网上下载了so的文件,发现posts.xml和comments.xml都不是足够规范
的xml,parse出错。具体原因见如下thread。
http://stackoverflow.com/questions/7693515/why-is-elementtree-r
如果OA给的xml,不parse出错,要好处理一些。

subchains

【在 Z**0 的大作中提到】
: 去DS或者统计版问这个问题吧。
: 1. 这个题目,要问题是什么?最后出现的M,是这个题目的问题?问最大的subchains
: number(expected)?
: 2. xml。基本编程问题吧。因为xml规范,使用你需要一个xml parser,分析每个xml
: file,这部是map。然后对需要的child,进行统计。(reduce)。看起来python比较容
: 易处理这个问题,需要numpy,pandas。(py)spark更加是处理这个问题的利器了。

m****4
发帖数: 2
8
mcal(8)
$m1
[1] 2.83254
$sd1
[1] 0.6118317
对一下第一个空,第二个在run,感觉要跪

【在 r******e 的大作中提到】
: 我强行用随即采样算了, 考虑过递归, 没想出来.
Z**0
发帖数: 1119
9
今天早上继续数据检查。发现原始数据很坑人(网络上下载的SO提供的数据,xml格式
),xml不完全合乎规范,主要是Body attribute。这个是用户问的问题,里边有code
,里边就可能出现xml的tag。
比如:出现
,这个正常是要转换为\&\<;pre \&\>;但是有地方转了,有地方没有
转。
如果OA问题里边不问和Body有关的细节问题,直接把Body 这个Attribute删除,可以解
决很多头痛的问题。
用spark,主要是spark提供的函数多,OA这些问题,都可以直接一句话,得到答案。

spark

【在 r******e 的大作中提到】
: 1 M 就是最大的subchains , 要求它的分布.
: 2 本来考虑spark了,但是数据其实并不多, 就转换xml格式后统计了. 这个xml格式太肯
: 跌了, 文件才200m, 结果打开后需要4g内存, 我转换格式后xls才50m.
: 不过估计是过不了了, 因为没有按大数据的思路去走.还是要把python numpy 和spark
: 好好学习下.
:
: subchains

r******e
发帖数: 244
10
请问你用的这个是啥工具?

【在 m****4 的大作中提到】
: mcal(8)
: $m1
: [1] 2.83254
: $sd1
: [1] 0.6118317
: 对一下第一个空,第二个在run,感觉要跪

1 (共1页)
进入JobHunting版参与讨论
相关主题
请教一个概率题目请教一道面试题
面试题facebook chat 更新好友在线状态 - 求解惑
几道面试题find subset that sum up to given number
欢迎大家积极讨论一个ms简单的算法面试题leetcode container with most water
DS 两道OA面试题目leetcode一道题
Divide num list into grp of consecutive nums with order preservedopt申请了以后没有receipt number如何查询进展?
Interview street上的一题求助借人气,问道题
问道面试题leetcode的container with most water题
相关话题的讨论汇总
话题: xml话题: oa话题: numbered话题: drew话题: links