s**********o 发帖数: 14359 | 1 【 以下文字转载自 JobHunting 讨论区 】
发信人: rongxuer (蓉儿), 信区: JobHunting
标 题: 如何秒杀99%的海量数据处理面试题
发信站: BBS 未名空间站 (Thu Apr 5 02:08:57 2012, 美东)
海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的... 阅读全帖 |
|
r******r 发帖数: 700 | 2 海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖 |
|
r******r 发帖数: 700 | 3 海量数据处理:十道面试题与十个海量数据处理方法总结
作者:July、youwang、yanxionglu。
时间:二零一一年三月二十六日
说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量
数据处理的方法总结。
本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随
时交流、指正。
出处:http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中
。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把
整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash
_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最
大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪... 阅读全帖 |
|
m**********o 发帖数: 63 | 4 mark
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、
yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道
海量数........ |
|
j*******2 发帖数: 7 | 5 各位网友大家好,我在美国东部R1非名校心理学博士毕业,opt期间,求
网友内推工作,什么工作都可以,合同工,志愿者都可以。自己根据自己的背景分析的
话,除了心理学之外,可以做用户研究和数据处理。博士的方向是心理经济学,做用户
在购物网站的决策的。博士的最后两年给学校的一个创业基地的做过用户体验、客户需
求的应用研究。博士后面几年,口语在和美国文科研究生竞争的情况下, 拿到的独立教
课的graduate instructor on record(雅思8分).
www.jingpan.info
www.linkedin.com/in/jingpanphd
附件里面是简历
技能:
用户体验研究:熟练掌握各种quantitative and qualitative user research methods
.各种survey design and analysis等等。
数据处理:考过了SAS base证,正在准备考SAS advance的证。熟练使用R, SPSS,
MATLAB. mySQL/SQL 能写ad hoc query.
计算机: php, html, css.
商业:学过营销... 阅读全帖 |
|
v***2 发帖数: 131 | 6 请问:关于做大数据处理和mongoDB的工作,前景如何
在下拿到一个start up小公司的offer,是做大数据处理,用到mongoDB,Handoop,
NoSQL,Jason相关工具和数据库,请问这个方向前景如何?哪方面应该多下点功夫?
先谢谢各位朋友了 |
|
v***2 发帖数: 131 | 7 请问:关于做大数据处理和mongoDB的工作,前景如何
在下拿到一个start up小公司的offer,是做大数据处理,用到mongoDB,Handoop,
NoSQL,Jason相关工具和数据库,请问这个方向前景如何?哪方面应该多下点功夫?
先谢谢各位朋友了 |
|
j*******2 发帖数: 7 | 8 各位网友大家好,我在美国东部R1非名校心理学博士毕业,opt期间,求
网友内推工作,什么工作都可以,合同工,志愿者都可以。自己根据自己的背景分析的
话,除了心理学之外,可以做用户研究和数据处理。博士的方向是心理经济学,做用户
在购物网站的决策的。博士的最后两年给学校的一个创业基地的做过用户体验、客户需
求的应用研究。博士后面几年,口语在和美国文科研究生竞争的情况下, 拿到的独立教
课的graduate instructor on record(雅思8分).
www.jingpan.info
www.linkedin.com/in/jingpanphd
附件里面是简历
技能:
用户体验研究:熟练掌握各种quantitative and qualitative user research methods
.各种survey design and analysis等等。
数据处理:考过了SAS base证,正在准备考SAS advance的证。熟练使用R, SPSS,
MATLAB. mySQL/SQL 能写ad hoc query.
计算机: php, html, css.
商业:学过营销... 阅读全帖 |
|
j*******2 发帖数: 7 | 9 各位师兄师姐师弟师妹大家好,我在美国东部R1非名校心理学博士毕业,opt期间,求
校友内推工作,什么工作都可以,合同工,志愿者都可以。自己根据自己的背景分析的
话,除了心理学之外,可以做用户研究和数据处理。博士的方向是心理经济学,做用户
在购物网站的决策的。博士的最后两年给学校的一个创业基地的做过用户体验、客户需
求的应用研究。博士后面几年,口语在和美国文科研究生竞争的情况下, 拿到的独立教
课的graduate instructor on record(雅思8分).
www.jingpan.info
www.linkedin.com/in/jingpanphd
附件里面是简历
技能:
用户体验研究:熟练掌握各种quantitative and qualitative user research methods
.各种survey design and analysis等等。
数据处理:考过了SAS base证,正在准备考SAS advance的证。熟练使用R, SPSS,
MATLAB. mySQL/SQL 能写ad hoc query.
计算机: php, html, css.
商... 阅读全帖 |
|
n**n 发帖数: 217 | 10 【 以下文字转载自 EE 讨论区 】
发信人: nwsn (nwsn), 信区: EE
标 题: ECE 雷达数据处理方向,毕业好就业吗?在美国
发信站: BBS 未名空间站 (Sat Apr 10 12:59:07 2010, 美东)
ECE 雷达数据处理方向,毕业好就业吗?在美国 |
|
v***2 发帖数: 131 | 11 请问:关于做大数据处理和mongoDB的工作,前景如何
在下拿到一个start up小公司的offer,是做大数据处理,用到mongoDB,Handoop,
NoSQL,Jason相关工具和数据库,请问这个方向前景如何?哪方面应该多下点功夫?
先谢谢各位朋友了 |
|
t******p 发帖数: 810 | 12 【 以下文字转载自 CS 讨论区 】
发信人: temptemp (werere), 信区: CS
标 题: 请推荐一个编程软件 对于事实数据处理
发信站: BBS 未名空间站 (Mon Jun 13 12:27:06 2011, 美东)
想弄个程序 可以事实读取数据 做一些数据处理。还要一些好的界面设计。
请问 有好的编程软件推荐码?
matlab? java? c#?
Thank you! |
|
v***2 发帖数: 131 | 13 请问:关于做大数据处理和mongoDB的工作,前景如何
在下拿到一个start up小公司的offer,是做大数据处理,用到mongoDB,Handoop,
NoSQL,Jason相关工具和数据库,请问这个方向前景如何?哪方面应该多下点功夫?
先谢谢各位朋友了 |
|
v***2 发帖数: 131 | 14 请问:关于做大数据处理和mongoDB的工作,前景如何
在下拿到一个start up小公司的offer,是做大数据处理,用到mongoDB,Handoop,
NoSQL,Jason相关工具和数据库,请问这个方向前景如何?哪方面应该多下点功夫?
先谢谢各位朋友了 |
|
m******u 发帖数: 12400 | 15 从没做过大一点的数据处理,刚网上申请一个位置,要求填数据处理经历。该撒谎吗? |
|
t******p 发帖数: 810 | 16 【 以下文字转载自 CS 讨论区 】
发信人: temptemp (werere), 信区: CS
标 题: 请推荐一个编程软件 对于事实数据处理
发信站: BBS 未名空间站 (Mon Jun 13 12:27:06 2011, 美东)
想弄个程序 可以事实读取数据 做一些数据处理。还要一些好的界面设计。
请问 有好的编程软件推荐码?
matlab? java? c#?
Thank you! |
|
z*******5 发帖数: 55 | 17 【 以下文字转载自 Postdoc 讨论区 】
发信人: ziwei2005 (ziwei), 信区: Postdoc
标 题: 酶动力学数据处理问题请教
发信站: BBS 未名空间站 (Wed Aug 14 09:35:53 2013, 美东)
现在在做人工模拟酶动力学研究,数据处理总是与文献值差1~3个数量级,不知问题出
在那里,如果那个xdjm愿意帮忙,我把原始数据及我处理的过程结果发过去帮忙看看,
不胜感激,站内信箱联系 |
|
a*****e 发帖数: 159 | 18 【 以下文字转载自 Faculty 讨论区 】
发信人: asshole (nice), 信区: Faculty
标 题: 商科别人实证文章重复不出来,怎么提高数据处理能力
发信站: BBS 未名空间站 (Mon May 26 01:14:08 2014, 美东)
说来惭愧,复制论文经常不成功。
自己做也就是个5%的显著性,给有些人就能做出1%。
急需提高数据处理能力啊。
有啥好的建议。 |
|
s*****r 发帖数: 43070 | 19 顶多是科研类的数据处理的
还有写写网页,建个数据库啥的,现在都有现成的工具,找个不太笨的初中生,去教几
天都会啊 |
|
n******g 发帖数: 2201 | 20 这俩功能数学牛
大部分马公不会线性代数
[在 swjtuer (码农的小船说翻就翻) 的大作中提到:]
:顶多是科研类的数据处理的
:还有写写网页,建个数据库啥的,现在都有现成的工具,找个不太笨的初中生,去教
几天都会啊 |
|
g******t 发帖数: 11249 | 21 比如说A写了一个牛逼的数据处理软件
发了会议
里面有原理性描述
但是代码和细节不公开
别人一时半会也搞不出来
1. 直接把软件具体实现方法申请专利
2. 申请政府的研究基金
3. 卖给大公司
那条路比较可行 |
|
g****g 发帖数: 1634 | 22 招聘2名全职网页编程与数据处理人员,待遇从优,特别优秀可以Sponsor工作签证。
要求本科或者研究生以上学历,需要心态平和,脾气好,做事认真仔细,有团队精神,
有长期工作打算。要求精通Java, PHP, HTML, XML, excel, MySQL 等。了解网络推广
与图片编辑处理。会日语或英语以外语言优先考虑。
公司位于Manchester NH,不接受远程工作,必须on site,公司靠近Boston, MA Email
:[email protected]/* */ |
|
a*****e 发帖数: 159 | 23 说来惭愧,复制论文经常不成功。
自己做也就是个5%的显著性,给有些人就能做出1%。
急需提高数据处理能力啊。
有啥好的建议。 |
|
|
|
|
b****r 发帖数: 5 | 27 我们组现在有analyst的opening, 版上的朋友有networking, machine learning,
security, big data方向的我可以给引荐一下。
公司是大公司的全资子公司,做的是网络安全和大数据处理相关的项目,偏research,
有一些发文章和专利的任务,但是也会要写一些prototyping的程序。
要求是phd,publication稍微强一点。
感兴趣的朋友请email简历到 l*******[email protected] |
|
|
i****n 发帖数: 42 | 29 求数据处理或机器学习方面的兼职工作(主要使用R或Python的尤佳),NJ, NYC 或
Remote皆可(Remote最好),尤其欢迎有挑战性的Projects,站内联系,谢谢。 |
|
g****g 发帖数: 1634 | 30 招聘2名全职网页编程与数据处理人员,待遇从优,特别优秀可以Sponsor工作签证。
要求本科或者研究生以上学历,需要心态平和,脾气好,做事认真仔细,有团队精神,
有长期工作打算。要求精通Java, PHP, HTML, XML, excel, MySQL 等。了解网络推广
与图片编辑处理。会日语或英语以外语言优先考虑。
公司位于Manchester NH,不接受远程工作,必须on site,公司靠近Boston, MA Email
:[email protected]/* */ |
|
i****n 发帖数: 42 | 31 本人工科博士,过去做研究涉及大量的数据处理、分析和建模,很喜欢和数据打交道,
因此转行读 part-time MS in Data Science.
本人现为Frontend Software Developer,因公司地点即将变动,很不方便。求内推纽
约市内的 Data Scientist 职位。本人有身份,可以立即上岗。谢谢! |
|
z*******5 发帖数: 55 | 32 现在在做人工模拟酶动力学研究,数据处理总是与文献值差1~3个数量级,不知问题出
在那里,如果那个xdjm愿意帮忙,我把原始数据及我处理的过程结果发过去帮忙看看,
不胜感激,站内信箱联系 |
|
g****g 发帖数: 1634 | 33 招聘2名全职网页编程与数据处理人员,待遇从优,特别优秀可以Sponsor工作签证。
要求本科或者研究生以上学历,需要心态平和,脾气好,做事认真仔细,有团队精神,
有长期工作打算。要求精通Java, PHP, HTML, XML, excel, MySQL 等。了解网络推广
与图片编辑处理。会日语或英语以外语言优先考虑。
公司位于Manchester NH,不接受远程工作,必须on site,公司靠近Boston, MA Email
:[email protected]/* */ |
|
D******3 发帖数: 18 | 34 在文学城上有个“老土”老师搞数据处理培训班,有参加过得朋友能给点建议吗?真的
好找工作吗? |
|
l*******3 发帖数: 41 | 35 【 以下文字转载自 LosAngeles 讨论区 】
发信人: yogurtdairy (:O), 信区: LosAngeles
标 题: 有想在LA找工作,且有较强的数据处理和分析能力的朋友吗?
发信站: BBS 未名空间站 (Thu Jul 7 13:53:58 2011, 美东)
location: Los Angeles ONLY.
preferred skills:
1. SAS programming and data management skills
2. work in social science field, do not expect high salary and compensation
3. have taken graduate level quantitative analysis courses (advanced
statistical courses, such as factor anaysis, HLM, etc.)
4. will provide good training in analyzing practical data fil... 阅读全帖 |
|
r****e 发帖数: 1 | 36 Mac新手。以前都是拿Origin做处理数据。现在改了Mac又不想用一堆虚拟系统什么的。
请问有没有Mac上比较好用的数据处理软件。请不要说是Excel或者Number。谢谢各位帮
忙。 |
|
t******p 发帖数: 810 | 37 想弄个程序 可以事实读取数据 做一些数据处理。还要一些好的界面设计。
请问 有好的编程软件推荐码?
matlab? java? c#?
Thank you! |
|
w****w 发帖数: 521 | 38 【 以下文字转载自 Statistics 讨论区 】
发信人: xizizhao (笨笨熊), 信区: Statistics
标 题: 问一个数据处理的问题,该如何实现单列转多行?14楼有图更新
发信站: BBS 未名空间站 (Tue Jul 17 00:05:19 2012, 美东)
我们是个广告公司,sales组的人每天在一个excel表格中输入每个广告的start date,
end date,以及我们需要投放的总数量,每日投放数量(总数量/起止间隔天数),想
请教一下大家用什么方法可以实现?Excel VBA? SQL? 还是别的?
复杂点在于列数很少,但转成行的话得每一天+网站为一行,列数和行数不相等,行数
远大于列数。向各位数据统计大牛求教!
原始数据为:
广告投放网站,开始时间, 结束时间,总投放数量, 每日投放数量
abc.com, 4/1/2012, 4/30/2012, 30000, 1000
esbn.com, 3/1/2012, 3/15/2012, 10000, 666.67
answer.com, 7/1/2012, 8/1/2012, 50000, 16... 阅读全帖 |
|
c*****e 发帖数: 1538 | 39 总共1000块以下吧,不算显示器。
Skylake平台。
一般就是做做数据处理,sas, r,matlab,之类。
多谢! |
|
|
z*****g 发帖数: 810 | 41 mongodb, 大数据处理, python, 都是亮点啊 |
|
n******7 发帖数: 12463 | 42 windows下处理表格数据用的最多的是excel。查找,排序,归类,作图,简单分析,都
很方便。可能有人觉得excel不专业,但是对我来说,随便浏览下数据,获得一些大致
的概念完全够了。关键是方便,迅速,交互。
linux下一直在寻觅实现类似功能的方法(不考虑作图)。这里不想讨论open office
或者 gnumeric,我宁可去用虚拟机而不想用它们。 另外,它们也不能在终端下使用。
我平时用以下方法,但是都不是特别完美:
1. vim + shell
vim和shell都用的不是很精,不过简单数据处理也够了,再复杂的就写代码了。vim浏
览数据还可以,简单查询也方便,纵向滚动也不错。但是我一直不知道能不能横向滚动
,如果很多列的话。另外,也不知道怎么让同一列对齐。需要复杂一点数据操作的话,
就要用sort,uniq,awk,sed,cut,paste,wc,grep等shell命令配合了,可能还要产生一些
临时文件,这点我不喜欢。我希望能在一个工具内部完成所有需要的操作
2. R
有段时间试图用R做所有类似的工作,基本胜任。问题是感觉浏览数据不是很方便。比
如我想挨个观察id=... 阅读全帖 |
|
|
l******e 发帖数: 1875 | 44 关键3点:
1:不想考GRE,因为担心太耗时间,比较倾向考Gmat
2:只是想不久后跟家人到美国后能尽快读书,然后有份正式工作(计划在西雅图读书工
作)
3:虽然向往过但是不太敢读MBA,因为担心读完非top美国院校的MBA不好找工作,并且
读MBA的花费太高
目前在在国内就职于一家比较知名的跨国咨询调研公司
年龄30+,女,比较内向,初步计划基于已有的职业经历,读个和数据处理、或市场分
析等有关的硕士专业。
本科学医,国内硕士读社会心理学
对于美国的硕士专业分支以及和职业的关系基本没有了解,不知道什么专业比较适合?
请大家给点建议把
先谢谢了! |
|
n**n 发帖数: 217 | 45 ECE 雷达数据处理方向,毕业好就业吗?在美国 |
|
s*****c 发帖数: 753 | 46 【 以下文字转载自 Joke 讨论区 】
发信人: springc (阿泉), 信区: Joke
标 题: 简单的数据处理问题
发信站: BBS 未名空间站 (Wed Jan 27 22:49:35 2016, 美东)
求助万能的学术版
从500个样品中确定了mean = m standard deviation=s
问,随机取9个样品取平均,平均值大于m+s的几率是多少。 |
|
t*******t 发帖数: 369 | 47 【 以下文字转载自 PoliticalScience 讨论区 】
发信人: transient (平沙), 信区: PoliticalScience
标 题: 问几个数据处理的小问题
发信站: BBS 未名空间站 (Fri Oct 30 22:59:06 2009, 美东)
这两天在clean我的survey data,有两个关于missing value的小问题,匆忙找了一下
看到有人引用过两本年代较久远的教材来解决,但是不能肯定,特此请教。
1)有人引用一篇说"...if a variable contains more than 15% missing data, the
variable should be eliminated from the variable pools."
这个比较make sense,我的数据也适用。
2)另外一篇说"... if the number of missing cases is more than 5%, it is
common to eliminate the cases from the analysis."大家觉得这个5%的门槛 |
|
l******e 发帖数: 1875 | 48 关键3点:
1:不想考GRE,因为担心太耗时间,比较倾向考Gmat
2: 想不久后跟家人到美国后能尽快读书,然后有份正式工作(计划在西雅图读书工
作)
3:虽然向往过但是不太敢读MBA,因为担心读完非top美国院校的MBA不好找工作,并且
读MBA的花费是否太高
目前在在国内就职于一家比较知名的跨国咨询调研公司
年龄30+,女,比较内向,初步计划基于已有的职业经历,读个和数据处理、或市场分
析等有关的硕士专业。 以后可能从事比较偏数据分析的工作。
本科学医,国内硕士读社会心理学
对于美国的硕士专业分支以及和职业的关系基本没有了解,不知道什么专业比较适合?
请大家给点建议把
先谢谢了! |
|
K***6 发帖数: 155 | 49 【 以下文字转载自 Biology 讨论区 】
发信人: KS106 (KS), 信区: Biology
标 题: 数据处理的问题,大家帮帮忙!
发信站: BBS 未名空间站 (Mon May 25 00:19:38 2009)
太久没有碰这一块,感觉脑袋都不大好使了!
老板让我分析一套数据,他想要的是比较 nerve density (Old vs. Young).
动物做完切片后,immunohistochemistry,然后CONFOCAL拍照,现在OLD and Young各有
三只(Y1, Y2, Y3 and O1, O2, O3),每一只我选取了4张效果比较好的照片,然后用一
种分析软件,先把要分析的区域圈起来,然后count # of nerves & slelected area,
然后就可以算出density (# of nerves/uint area),问题是老板让我把所有的density
平均值,再比较old vs.young 的差异,可是在selected area 不相同的情况下,
density怎么可以取平均值呢?后来我想,若是把所有# of nerv |
|
s*****c 发帖数: 753 | 50 【 以下文字转载自 Joke 讨论区 】
发信人: springc (阿泉), 信区: Joke
标 题: 简单的数据处理问题
发信站: BBS 未名空间站 (Wed Jan 27 22:49:35 2016, 美东)
求助万能的学术版
从500个样品中确定了mean = m standard deviation=s
问,随机取9个样品取平均,平均值大于m+s的几率是多少。 |
|