|
|
|
|
|
|
c****t 发帖数: 19049 | 1 从数据中找到有用信息,发现其中的矛盾与无常、并且知道如何处置,就和在物理实验
室学习仪器操作一样,是一种动手能力。
——格雷格·
威尔逊
莎拉·利奥布曼(Sarah Loebman)是华盛顿大学天文学系一名研究银河系演化的博士
生。和她一同工作的两个团队,一个负责夜观天相,另一个进行高分辨率计算机模拟。
两个团队都在与浩如烟海的数据搏斗。"从前,我每天大部分时间都在往电脑上传数据。
”她说道。当物理系同事从NASA得到一笔经费,研究怎样将数据库技术应用到天文学时
,莎拉和计算机系的同仁加入了他的项目。她想看看自己还能拿那堆不听话的数据怎么
办。萨拉做的第一件事情,是报读了一门研究生的《数据库管理系统》。这改变了她对
自己工作的看法。“数据库使我不再只拘泥于某一个时刻的模拟结果。”很快,她开始
帮助其他同事处理数据,并优化他们的工作程序。2009年,莎拉发表了论文《Pig/
Hadoop和关系型数据库管理系统能帮助我们分析巨量的天体物理学数据吗?》。她即将
在密歇根大学安娜堡分校开始博士后研究,在她看来,是跨学科的研究成果帮她得到了
这个机会。
埃德·拉佐沃斯卡(Ed Lazowska)是华盛顿大学“比尔和梅琳达·盖茨-计算机科学与
工程基金会”的主席。埃德认为,数据驱动型的发现将成为一种常态。一个新环境将造
就出许多利奥布曼一样,既在自己的领域有所专长,又能熟练应用数据科学的研究人员
,并使他们从中获益。他将这些人称作“π型人才”,有两条分属不同领域的健全腿脚
支撑他们前进。“所有科学都在迅速变成所谓的‘数据科学’。”华盛顿大学信息科学
研究所的比尔·豪(Bill Howe)说道。今日的基因测序仪、望远镜、林冠层、道桥、
建筑和POS终端上,都可以安装传感器,蚁穴中的每一只蚂蚁都能被做上标记。真正的
挑战,在于从浩瀚的数据汪洋中找出可用之物,并将它们转化成有价值的东西。这个年
月,工程学、科学、社会科学、法律、医学甚至人文学科的人,都抱怨自己快淹死在数
据里,想找个分析和管理它们的东西。
学会写码、并能游刃有余地应付大量数据集,或许很快会成为传统科学领域的必备技能
。为了将日常的数据处理任务自动化、实现不同分析工具之间的数据搬运,许多科学家
已经编写了程序脚本。这些基本功能——还有基本的构架——为更加迅速与自动化的数
据管理铺好了前路。但要优化利用这些飞速累积的数据,还需要用上数据库、可视技术
、机器学习、并联系统等方面更多的计算机技术。写码训练营需求就是动力,即便对那
些有统计学和相关数学背景的人相对容易一些,其他学科的研究人员也能够在一段合理
的时间内,学会处理大量数据所需要的技能。“这完全办得到。”“软件工坊”(
Software Carpentry)创始人格雷格·威尔逊(Greg Wilson)如是说。“软件工坊”是
一个由Mozilla和阿尔弗雷德·P·斯隆基金会共同出资的机构,过去15年里一直致力于
帮助科学家开发更好用的软件。1980年代末,威尔逊还是爱丁堡大学计算机科学系的博
士生,同时在校园里作一名程序员。当他将物理学家编写的代码输进超级计算机时,十
分惊讶地发现,其中有一些的效率十分低下。“我看着他们花上几个小时甚至几天,才
弄出那些我几分钟就能搞定的东西。这些科学家比我聪明得多,他们只是不知道早有人
弄通了那些让他们挠头的代码。”威尔逊设计了程序创建、调试和版本控制的课程。“
纯粹是自卫训练。”他1992年毕业,六年之后,得到了在洛斯阿拉莫斯国家实验室给科
学家和工程师们上课的机会——教他们如何有效率地编码。威尔逊在企业和学术界都待
过,现在是Mozilla基金会的全职雇员,他训练出的志愿者正在全世界的校园训练营里
教人们编程。
对那些想要踏入数据催生的新科学领域的年轻科研人员,威尔逊的建议是:选择数据密
集型项目、保持专注、并且学习控制数据容量。“学习从数据中找到有用信息,发现其
中的矛盾与无常、并且知道如何处置,就如同在物理实验室学习仪器操作一样,是一种
动手能力。”人在实践中更容易长进,而研究生学习可以提供实践的天时与地利,威尔
逊补充说道。最大的困难并不是编程上的,“而是判断应该使用哪种分析手段,分析出
的结果又是否有用。”开源社区,在他看来,是一个找寻编程导师的好地方。上课去!
为了方便更多传统科研人员学习数据科学,一些院校已推出了提供证书的数据科学和数
据采掘课程。网络上也出现了入门级课程,譬如Coursera上的这一发。在计算机系找一
些选修课程,可以帮助研究人员获得自己需要的技术,但许多科学家发现,这并不是最
有效率的学习方法。一个对他们的学科领域有足够了解的编程教员,授课的效果要远好
得多。朱莉·梅西尔(Julie Messier)是亚利桑那大学研四的学生,她在加拿大一个
北温带森林保护区测量了25个物种、超过400棵树木的35个不同指标。为了完成论文,
她必须用到编程和统计学的技术,对这片巨大的数据网络进行分析。她在犹他大学找到
了一门一学期的课程——“生物学家的编程课”。这正是她需要的,但犹他州路途遥远
,课也没有在网络上公开。授课教师伊桑·怀特(Ethan White)建议梅西尔到自己志
愿工作的“软件工坊”去。意识到系里好多人和她有相同的需求,梅西尔在图森的自家
校园里组织了一个为期两天的编程突击营。只需贴补路费和食宿,”软件工坊”的志愿
者就能免费上门开办速成班。系统化的校园课程可以向学生们提供需要的技能,但其中
总有些东西他们一辈子也用不到。”速成式”培训却只教有用的东西,不过往往效率不
高,学生常产生挫败感。梅西尔觉得,速成班可以作为“需求向”学习过程的一个不错
的补充。
速成教育也许并不完美,但对杰文·韦斯特(Jevin West)却很管用。韦斯特是瑞典于
默奥大学一位有生物博士学位的物理学博士后,他与人共同创立了“特征因子(
Eigenfactor Project)项目, 按一定规则为科学知识排序,并绘制一张分布图。他们
将学术文献看作一张大网,论文构成节点,引用是其间的联系。”我们可以用这张网衡
量学术影响力,最重要的,是它能在不断膨胀的文献海洋中发挥导航作用。”韦斯特说
道。最开始对计算机感兴趣的时候,他没有上过一堂正经的编程课,不过,他周围有很
多这方面的专业人士。”我很幸运,不明白的都能问他们。”学得越早,效果越好。华
盛顿大学化学工程系的研究生安德鲁•怀特(Andrew White)很小就开始玩父母
淘汰的苹果电脑,高中时一度想当个黑客。如今的他,正在用计算机模型寻找新的生物
材料。他创建了一些分析数据的网页应用供大家使用,并且设计了一个线上软件,在同
事之间共享数据。怀特说,像他一样自学成才的程序员,一般都在网上阅读教程和书籍
,看彼此写的代码,在公共论坛上讨论问题。研究生时,他又在计算机系上了一些选修
课,确保自己已全面掌握了编程的基础。要成为”π型人才”,有很多道路可以走。 | d********e 发帖数: 39903 | |
|
|
|
|
|