r******e 发帖数: 244 | 1 有两道大题, 我不是学Data 分析的,所以觉得很难. 提示说只要四个小时就能完成, 可
我花了四个小时都没看懂题目, 希望大家给点提示.
1.You have a chain with N links numbered 1 to N. Every minute, you draw a
random link from a bag, and connect it to any other consecutively-numbered
link that you drew before. For example, if you drew 4,1,5,7,3, you would end
up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have
drawn all N links and connected them into a single chain length N. M is the
maximum number of subchain in this process.
我需要考虑 N = 8, 16, 32三种情况. N = 8 非常好做, 把所有情况列举出来计算就行
, 可是N= 16有2.0923e+013情况, N=32有10^35情况. 普通计算机根本无法在有限时间
遍历. 我现在是采用了随机的方法,但是这样精度不够, 题目要求达到10数字. 各位大
牛, 这里有啥敲门, 还是有些统计语言有优势,比如R, IDL, Stata. 我完全没学过这个.
2 You have a chain with N links numbered 1 to N. Every minute, you draw a
random link from a bag, and connect it to any other consecutively-numbered
link that you drew before. For example, if you drew 4,1,5,7,3, you would end
up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have
drawn all N links and connected them into a single chain length N. M is the
maximum number of subchain in this process.
给了一些从 statistics overflow 来的xml 文件, 要求做数据分析. 比如Users.xml
Posts.xml. 回答比如what fraction of posts contain the 5th most popular tag?
How much higher is the average answer's score than the average question's?
这些文件都非常大, 我用16g电脑无法打开, 首先一个问题是如何分段读写这样的xml.
感觉是要生成一个数据库才能计算的, 不知道是不是这样, 如果是这样, 看来我要放弃
这次OA, 完全不会, 只会用matlab处理数据. matlab完全无法load这么大量数据,别提
处理了.
给点建议, 提示,要学习哪些内容,才能回答这些问题.
万分感谢. | m****4 发帖数: 2 | 2 我才注意到邮件,想今天晚上做,你有新思路不,目测这个题是递归问题,计算机算法
有讲,我时统计的,也不大懂,第二题应该r能打开,能不能处理的了不一定,感觉要
跪 | Z**0 发帖数: 1119 | 3 去DS或者统计版问这个问题吧。
1. 这个题目,要问题是什么?最后出现的M,是这个题目的问题?问最大的subchains
number(expected)?
2. xml。基本编程问题吧。因为xml规范,使用你需要一个xml parser,分析每个xml
file,这部是map。然后对需要的child,进行统计。(reduce)。看起来python比较容
易处理这个问题,需要numpy,pandas。(py)spark更加是处理这个问题的利器了。 | r******e 发帖数: 244 | 4 我强行用随即采样算了, 考虑过递归, 没想出来.
【在 m****4 的大作中提到】 : 我才注意到邮件,想今天晚上做,你有新思路不,目测这个题是递归问题,计算机算法 : 有讲,我时统计的,也不大懂,第二题应该r能打开,能不能处理的了不一定,感觉要 : 跪
| r******e 发帖数: 244 | 5 1 M 就是最大的subchains , 要求它的分布.
2 本来考虑spark了,但是数据其实并不多, 就转换xml格式后统计了. 这个xml格式太肯
跌了, 文件才200m, 结果打开后需要4g内存, 我转换格式后xls才50m.
不过估计是过不了了, 因为没有按大数据的思路去走.还是要把python numpy 和spark
好好学习下.
subchains
【在 Z**0 的大作中提到】 : 去DS或者统计版问这个问题吧。 : 1. 这个题目,要问题是什么?最后出现的M,是这个题目的问题?问最大的subchains : number(expected)? : 2. xml。基本编程问题吧。因为xml规范,使用你需要一个xml parser,分析每个xml : file,这部是map。然后对需要的child,进行统计。(reduce)。看起来python比较容 : 易处理这个问题,需要numpy,pandas。(py)spark更加是处理这个问题的利器了。
| d******4 发帖数: 132 | 6 What is OA?
end
have
the
【在 r******e 的大作中提到】 : 有两道大题, 我不是学Data 分析的,所以觉得很难. 提示说只要四个小时就能完成, 可 : 我花了四个小时都没看懂题目, 希望大家给点提示. : 1.You have a chain with N links numbered 1 to N. Every minute, you draw a : random link from a bag, and connect it to any other consecutively-numbered : link that you drew before. For example, if you drew 4,1,5,7,3, you would end : up with three subcahins: 1, (3,4,5), 7. You keep on drawing until you have : drawn all N links and connected them into a single chain length N. M is the : maximum number of subchain in this process. : 我需要考虑 N = 8, 16, 32三种情况. N = 8 非常好做, 把所有情况列举出来计算就行 : , 可是N= 16有2.0923e+013情况, N=32有10^35情况. 普通计算机根本无法在有限时间
| Z**0 发帖数: 1119 | 7 尝试了一下。从网上下载了so的文件,发现posts.xml和comments.xml都不是足够规范
的xml,parse出错。具体原因见如下thread。
http://stackoverflow.com/questions/7693515/why-is-elementtree-r
如果OA给的xml,不parse出错,要好处理一些。
subchains
【在 Z**0 的大作中提到】 : 去DS或者统计版问这个问题吧。 : 1. 这个题目,要问题是什么?最后出现的M,是这个题目的问题?问最大的subchains : number(expected)? : 2. xml。基本编程问题吧。因为xml规范,使用你需要一个xml parser,分析每个xml : file,这部是map。然后对需要的child,进行统计。(reduce)。看起来python比较容 : 易处理这个问题,需要numpy,pandas。(py)spark更加是处理这个问题的利器了。
| m****4 发帖数: 2 | 8 mcal(8)
$m1
[1] 2.83254
$sd1
[1] 0.6118317
对一下第一个空,第二个在run,感觉要跪
【在 r******e 的大作中提到】 : 我强行用随即采样算了, 考虑过递归, 没想出来.
| Z**0 发帖数: 1119 | 9 今天早上继续数据检查。发现原始数据很坑人(网络上下载的SO提供的数据,xml格式
),xml不完全合乎规范,主要是Body attribute。这个是用户问的问题,里边有code
,里边就可能出现xml的tag。
比如:出现,这个正常是要转换为\&\<;pre \&\>;但是有地方转了,有地方没有
转。
如果OA问题里边不问和Body有关的细节问题,直接把Body 这个Attribute删除,可以解
决很多头痛的问题。
用spark,主要是spark提供的函数多,OA这些问题,都可以直接一句话,得到答案。
spark
【在 r******e 的大作中提到】 : 1 M 就是最大的subchains , 要求它的分布. : 2 本来考虑spark了,但是数据其实并不多, 就转换xml格式后统计了. 这个xml格式太肯 : 跌了, 文件才200m, 结果打开后需要4g内存, 我转换格式后xls才50m. : 不过估计是过不了了, 因为没有按大数据的思路去走.还是要把python numpy 和spark : 好好学习下. : : subchains
| r******e 发帖数: 244 | 10 请问你用的这个是啥工具?
【在 m****4 的大作中提到】 : mcal(8) : $m1 : [1] 2.83254 : $sd1 : [1] 0.6118317 : 对一下第一个空,第二个在run,感觉要跪
|
|