由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - [bssd]诚心请假,作为data analyst怎样才能be creative?
相关主题
求推荐business/market analyst方面的书Post-Graduate Fellowship
旧金山DS工作市场好象挺火说说最近两次面试经历吧
湾区工作机会 - Data Analyst Contractor没有 IT 背景的学Cognos 很难吗?
[合集] 请问个面试 data analyst 的问题 (转载)SAS or R处理大量数据
请问marketing analyst 是做什么的?请问:多维数据怎么进行检验?
sas 问题请教请问银行credit card products的anlytics工作面试
生物统计不能申请opt extension吗?[包子问]统计新人问开学前的自学内容
发一个job openingcredit risk scorecard一般是指retail credit risk吗?
相关话题的讨论汇总
话题: ie话题: user话题: metric话题: analyst话题: site
进入Statistics版参与讨论
1 (共1页)
t***q
发帖数: 418
1
在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据(
billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这
个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎,
基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多
,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗,
我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。
我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的
好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题,
可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE
ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是
bad
site,ban 或不ban 这个site.这个组一个基本的任务就是improve 这些metric,我现在
要improve user agent>1 的request的 ratio这个metric,有点迷茫,早上,一个年长
data
analyst,说了个东西,说什么,找出high IE concentrated的网站(用户?),如IE
concentration可达98%,在这些网站(用户?)中找出user agent>1的用户?然后,看
到这些用户的IE concentration一般是70%(汗,为什么IE concentration下降了,不是
98%吗?),然后看到这些用户在变换着browser type,如从IE变到chrome,firefox等.
有点迷茫耶,这个分析的point在哪里,怎么能通过这样的分析improve user agent>1

requests的 ratio这个metric.在这个project里,我还算了一些其他东西,如 user
agent
>1的user里,number of browser-type=1,number of version type=1,看这些user的
访问量占总访问量的百分比,还有user agent >1的user里,number of browser types
>1, number of version types>1,看这些user的访问量占总访问量的百分比。我现在
都不知道算这些百分比,对improve这个metric有什么意义。汗,其实,我从开始,就
对这个project都不是很懂,或许,人家都没让improve这个metric都不一定,汗!!!!看
了这么多,大家对我的这个project有什么见解,这里有网络公司的data analyst可以
一起聊聊吗?搞traffic quality的就更好了。多谢!周末愉快!
T****m
发帖数: 68
2
不知道你的data是不是标准的weblogs。我做过的哪些data每个observation 有50多项。
数据都很大很大是吧,难怪你要用hive/pig之类的来处理。
如果是的话,你根据ID和cookie能够追踪到每一个人(也可以看作机器人) 在你们网
页上干了啥,就可以计算他们在你网页上访问的时间,次数,频率,用的什么浏览器,
什么版本,用什么操作系统
你就一个个分析分析这些, 是不是就可以得出那些异常的users? 那些找outlier的方
法就有用了,也许你可以找出那些threshold. 这样子你以后就可以随时计算那些值,
要是超出了,就可以怀疑是bad users?
b*********n
发帖数: 1938
3
你们要搞网站ranking,或者就是卖网络广告的?
可以看看是不是某些时段是不是异常的高访问量。

学。

【在 t***q 的大作中提到】
: 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据(
: billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这
: 个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎,
: 基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多
: ,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗,
: 我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。
: 我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的
: 好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题,
: 可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE
: ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是

h***x
发帖数: 586
4
这是你的第一份工作吗?如果是,俺的建议是
刚进去的fresh应该注重经验的积累而不是creativity。 实际上creativity是建立在你
的经验上的,只有到了积累到一定程度,你才能够有自己的想法,为了be creative而
try to be creative只不过是瞎猫捉耗子,瞎折腾。当然,这要是research的职位就另
当别论了,但我看不是。
你应该和你的manager好好谈谈,问他/她对你这个职位的expectation,how to be a
successful person in this role(其实这步你刚入职的时候就应该谈), 然后follow
别人的流程搞熟就可以了,这个过程对新手根据程度或多或少都要一年。至于
creativity,如上面所说,是你非常熟悉你工作后或下一份工作应该考虑的事情。其实
我觉得这个职位应该都有固定的流程或pipeline了,如果你觉得公司还需要你to be
creative,那只能说你还没真正明白要干什么,或公司管理有点混乱。我相信应该是前
者。真正取得老板的信任,不在乎你有多么
creative,而在于把他/她交代的事情干好,多聊,多交流,搞清楚他们的想法。
还有,不同的人长处不一样,有的人喜欢follow protocal,别人告诉的事情,能干得很
好,有人喜欢创新,经常有好点子。所以讲你没有好想法就干不了好活,是不对的。

学。

【在 t***q 的大作中提到】
: 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据(
: billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这
: 个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎,
: 基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多
: ,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗,
: 我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。
: 我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的
: 好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题,
: 可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE
: ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是

y********0
发帖数: 638
5
同意这个。。
而且我觉得lz问的这些问题,其实最应该找的人是你的mentor啊。
尤其你刚进门,行业相关的东西,即使原来做这个,公司和公司还不一样,
都有一阵相对blind的时期,根本没法很系统的把握一个东西。
美国人其实不管多stupid的问题,他们都不是很care,尤其是对新人,非常的nice。
你要是不声不吭,他们觉得问题反而更大。
像我们头,MIT 本科数学,后来还拿了两个PHD。。EE和商科背景,你要是问他个
高中生问题,他都高兴的不得了。人看的不是当前,人看的
是你的trend和attitude。

follow

【在 h***x 的大作中提到】
: 这是你的第一份工作吗?如果是,俺的建议是
: 刚进去的fresh应该注重经验的积累而不是creativity。 实际上creativity是建立在你
: 的经验上的,只有到了积累到一定程度,你才能够有自己的想法,为了be creative而
: try to be creative只不过是瞎猫捉耗子,瞎折腾。当然,这要是research的职位就另
: 当别论了,但我看不是。
: 你应该和你的manager好好谈谈,问他/她对你这个职位的expectation,how to be a
: successful person in this role(其实这步你刚入职的时候就应该谈), 然后follow
: 别人的流程搞熟就可以了,这个过程对新手根据程度或多或少都要一年。至于
: creativity,如上面所说,是你非常熟悉你工作后或下一份工作应该考虑的事情。其实
: 我觉得这个职位应该都有固定的流程或pipeline了,如果你觉得公司还需要你to be

w********y
发帖数: 371
6
你是学统计的么 你说的这些我怎么都没见过啊 我还没毕业
m*********n
发帖数: 119
7
有点意思
N**N
发帖数: 1713
8
已经很高级了。。hadoop我还见都没见过,主要工作就是sql query。。

学。

【在 t***q 的大作中提到】
: 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据(
: billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这
: 个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎,
: 基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多
: ,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗,
: 我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。
: 我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的
: 好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题,
: 可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE
: ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是

l*********s
发帖数: 5409
9
nan dao shi google?!
L****n
发帖数: 3545
10
不用GOOGLE吧。。。小的IT公司也有不少做过的吧?
我就做过类似的PROJECT,不过没有这么深了。大概就是DETECT FRAUD WEBSITE, BAN
URL OR IP OR SERVER。。。。。

【在 l*********s 的大作中提到】
: nan dao shi google?!
F*******7
发帖数: 405
11
Marked with thx.
1 (共1页)
进入Statistics版参与讨论
相关主题
credit risk scorecard一般是指retail credit risk吗?请问marketing analyst 是做什么的?
请问工业界一般用什么方法(metric)evaluate clustering的结果?sas 问题请教
how to define relationship between two groups生物统计不能申请opt extension吗?
eBay上海在招人发一个job opening
求推荐business/market analyst方面的书Post-Graduate Fellowship
旧金山DS工作市场好象挺火说说最近两次面试经历吧
湾区工作机会 - Data Analyst Contractor没有 IT 背景的学Cognos 很难吗?
[合集] 请问个面试 data analyst 的问题 (转载)SAS or R处理大量数据
相关话题的讨论汇总
话题: ie话题: user话题: metric话题: analyst话题: site