t***q 发帖数: 418 | 1 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据(
billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这
个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎,
基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多
,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗,
我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。
我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的
好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题,
可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE
ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是
bad
site,ban 或不ban 这个site.这个组一个基本的任务就是improve 这些metric,我现在
要improve user agent>1 的request的 ratio这个metric,有点迷茫,早上,一个年长
data
analyst,说了个东西,说什么,找出high IE concentrated的网站(用户?),如IE
concentration可达98%,在这些网站(用户?)中找出user agent>1的用户?然后,看
到这些用户的IE concentration一般是70%(汗,为什么IE concentration下降了,不是
98%吗?),然后看到这些用户在变换着browser type,如从IE变到chrome,firefox等.
有点迷茫耶,这个分析的point在哪里,怎么能通过这样的分析improve user agent>1
的
requests的 ratio这个metric.在这个project里,我还算了一些其他东西,如 user
agent
>1的user里,number of browser-type=1,number of version type=1,看这些user的
访问量占总访问量的百分比,还有user agent >1的user里,number of browser types
>1, number of version types>1,看这些user的访问量占总访问量的百分比。我现在
都不知道算这些百分比,对improve这个metric有什么意义。汗,其实,我从开始,就
对这个project都不是很懂,或许,人家都没让improve这个metric都不一定,汗!!!!看
了这么多,大家对我的这个project有什么见解,这里有网络公司的data analyst可以
一起聊聊吗?搞traffic quality的就更好了。多谢!周末愉快! | T****m 发帖数: 68 | 2 不知道你的data是不是标准的weblogs。我做过的哪些data每个observation 有50多项。
数据都很大很大是吧,难怪你要用hive/pig之类的来处理。
如果是的话,你根据ID和cookie能够追踪到每一个人(也可以看作机器人) 在你们网
页上干了啥,就可以计算他们在你网页上访问的时间,次数,频率,用的什么浏览器,
什么版本,用什么操作系统
你就一个个分析分析这些, 是不是就可以得出那些异常的users? 那些找outlier的方
法就有用了,也许你可以找出那些threshold. 这样子你以后就可以随时计算那些值,
要是超出了,就可以怀疑是bad users? | b*********n 发帖数: 1938 | 3 你们要搞网站ranking,或者就是卖网络广告的?
可以看看是不是某些时段是不是异常的高访问量。
学。
【在 t***q 的大作中提到】 : 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据( : billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这 : 个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎, : 基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多 : ,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗, : 我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。 : 我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的 : 好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题, : 可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE : ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是
| h***x 发帖数: 586 | 4 这是你的第一份工作吗?如果是,俺的建议是
刚进去的fresh应该注重经验的积累而不是creativity。 实际上creativity是建立在你
的经验上的,只有到了积累到一定程度,你才能够有自己的想法,为了be creative而
try to be creative只不过是瞎猫捉耗子,瞎折腾。当然,这要是research的职位就另
当别论了,但我看不是。
你应该和你的manager好好谈谈,问他/她对你这个职位的expectation,how to be a
successful person in this role(其实这步你刚入职的时候就应该谈), 然后follow
别人的流程搞熟就可以了,这个过程对新手根据程度或多或少都要一年。至于
creativity,如上面所说,是你非常熟悉你工作后或下一份工作应该考虑的事情。其实
我觉得这个职位应该都有固定的流程或pipeline了,如果你觉得公司还需要你to be
creative,那只能说你还没真正明白要干什么,或公司管理有点混乱。我相信应该是前
者。真正取得老板的信任,不在乎你有多么
creative,而在于把他/她交代的事情干好,多聊,多交流,搞清楚他们的想法。
还有,不同的人长处不一样,有的人喜欢follow protocal,别人告诉的事情,能干得很
好,有人喜欢创新,经常有好点子。所以讲你没有好想法就干不了好活,是不对的。
学。
【在 t***q 的大作中提到】 : 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据( : billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这 : 个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎, : 基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多 : ,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗, : 我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。 : 我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的 : 好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题, : 可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE : ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是
| y********0 发帖数: 638 | 5 同意这个。。
而且我觉得lz问的这些问题,其实最应该找的人是你的mentor啊。
尤其你刚进门,行业相关的东西,即使原来做这个,公司和公司还不一样,
都有一阵相对blind的时期,根本没法很系统的把握一个东西。
美国人其实不管多stupid的问题,他们都不是很care,尤其是对新人,非常的nice。
你要是不声不吭,他们觉得问题反而更大。
像我们头,MIT 本科数学,后来还拿了两个PHD。。EE和商科背景,你要是问他个
高中生问题,他都高兴的不得了。人看的不是当前,人看的
是你的trend和attitude。
follow
【在 h***x 的大作中提到】 : 这是你的第一份工作吗?如果是,俺的建议是 : 刚进去的fresh应该注重经验的积累而不是creativity。 实际上creativity是建立在你 : 的经验上的,只有到了积累到一定程度,你才能够有自己的想法,为了be creative而 : try to be creative只不过是瞎猫捉耗子,瞎折腾。当然,这要是research的职位就另 : 当别论了,但我看不是。 : 你应该和你的manager好好谈谈,问他/她对你这个职位的expectation,how to be a : successful person in this role(其实这步你刚入职的时候就应该谈), 然后follow : 别人的流程搞熟就可以了,这个过程对新手根据程度或多或少都要一年。至于 : creativity,如上面所说,是你非常熟悉你工作后或下一份工作应该考虑的事情。其实 : 我觉得这个职位应该都有固定的流程或pipeline了,如果你觉得公司还需要你to be
| w********y 发帖数: 371 | 6 你是学统计的么 你说的这些我怎么都没见过啊 我还没毕业 | m*********n 发帖数: 119 | | N**N 发帖数: 1713 | 8 已经很高级了。。hadoop我还见都没见过,主要工作就是sql query。。
学。
【在 t***q 的大作中提到】 : 在一个网络公司当data analyst,主要用hadoop/hive(类似sql的东西)处理大数据( : billion级的),我在的组叫traffic quality(流量质量),据说许多网络公司都有这 : 个分部,工作了一段时间,程序project马马虎虎照着年长程序员的程序,照猫画虎, : 基本能写下来,完成,用过shell script,python,R,perl,SQL,我们这里用java也挺多 : ,年长程序员见程序不是我的强项,就建议我以后再用java,说那个对我有难度.汗, : 我真觉得programming对于一个data analyst太重要了!!!真应该在学校里就多学学。 : 我现在在面临另一个问题,be creative。既然是流量质量,就要看site的流量的质量的 : 好坏,有些site过来的访问,如果浏览器是IE的比例过高,那么这个site可能有问题, : 可能是一个机器程序,在那边点,所以对于各个site,我们就算一些metric,如IE : ratio,user agent>1 的requests的 ratio,等等,根据这些metric判断某个site是不是
| l*********s 发帖数: 5409 | | L****n 发帖数: 3545 | 10 不用GOOGLE吧。。。小的IT公司也有不少做过的吧?
我就做过类似的PROJECT,不过没有这么深了。大概就是DETECT FRAUD WEBSITE, BAN
URL OR IP OR SERVER。。。。。
【在 l*********s 的大作中提到】 : nan dao shi google?!
| F*******7 发帖数: 405 | |
|