工作中的统计/machine learning问题求助：用什么metric比较两个string的相关性？ - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 工作中的统计/machine learning问题求助：用什么metric比较两个string的相关性？

相关主题
● Optimization over more than one metrics
● 2016应用数学与数据科学国际会议
● python sklearn nearest neighbor user defined metric
● 一个 senior data scientist 的面试题。
● [Data Science Project] Location data quality
● 分享一个Data Scientist的面经攒RP。。 (转载)
● Need senior data analyst - Seattle (转载)
● 求问一道关于NLP的面试题
● maximal information coefficient 问题
● Facebook DS onsite 求建议！顺便发个phone interview question攒人品

相关话题的讨论汇总
话题: string话题: useragent话题: net话题: clr话题: 数据

进入DataSciences版参与讨论

1

(共1页)

u*****o 发帖数: 1224	1 我是菜鸟。。。刚刚上班不久就遇到一个不太解决的了的问题，希望牛牛们给点指点，让我好知道如何下手，马上要和老板谈思路，怕自己什么也说不出来。我现在有两组数据，第一组是navigator的User-agent string，我们叫它A 一个例子就是 Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; BRI/1; MDDC; InfoPath.1; BRI/2) 另一组数据时browser的user-agent string,我们叫它B 一个例子是 Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0) 我不太清楚具体两组数据是如何收集的，但都是针对同一个user的browser收集的数据, 我现在的问题是，如何知道B是不是A的subset? 他们具体有多相似? 如何提取B的extra information? 想知道A，B的关系是为了以后的feature selection，看应该选A还是B放在数据分析的模型里。如果另一个不具有added value，那么放一个就可以了。我开始试过edit distance比较两个string的相似度，后来发现得到的数字没有什么意义，不具有描述性，如果R里面有什么package可以用就好了，哪怕是做个preliminary analysis启发一下也行呀，我听说过cramer'v,没用过，不知大家是否了解。
g*****o 发帖数: 812	2 你把字符串按照括号和分号拆成列表了没有呢？【在 u*****o 的大作中提到】 : 我是菜鸟。。。刚刚上班不久就遇到一个不太解决的了的问题，希望牛牛们给点指点， : 让我好知道如何下手，马上要和老板谈思路，怕自己什么也说不出来。 : 我现在有两组数据，第一组是navigator的User-agent string，我们叫它A : 一个例子就是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; : SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media : Center PC 6.0; .NET4.0C; .NET4.0E; BRI/1; MDDC; InfoPath.1; BRI/2) : 另一组数据时browser的user-agent string,我们叫它B : 一个例子是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)
u*****o 发帖数: 1224	3 谢谢回复:) 我拆分了，然后用hadoop做了一个word count，也就是分析了Mozilla，MSIE呀每个单词在两组数据中出现的频率，我一会发段结果上来。。这样的结果给的是overal statistics，如何使用呢？【在 g*****o 的大作中提到】 : 你把字符串按照括号和分号拆成列表了没有呢？
s*w 发帖数: 729	4 大波妹工作了啊你这个问题有点问题，既然是同一个　user 的，显然是取两个　sparse indicator vector　的　union 这样是最完整的信息【在 u*****o 的大作中提到】 : 我是菜鸟。。。刚刚上班不久就遇到一个不太解决的了的问题，希望牛牛们给点指点， : 让我好知道如何下手，马上要和老板谈思路，怕自己什么也说不出来。 : 我现在有两组数据，第一组是navigator的User-agent string，我们叫它A : 一个例子就是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; : SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media : Center PC 6.0; .NET4.0C; .NET4.0E; BRI/1; MDDC; InfoPath.1; BRI/2) : 另一组数据时browser的user-agent string,我们叫它B : 一个例子是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)
c***z 发帖数: 6348	5 试试 Jaccard http://en.wikipedia.org/wiki/Jaccard_index
f******k 发帖数: 297	6 try levenstein distance 【在 u*****o 的大作中提到】 : 我是菜鸟。。。刚刚上班不久就遇到一个不太解决的了的问题，希望牛牛们给点指点， : 让我好知道如何下手，马上要和老板谈思路，怕自己什么也说不出来。 : 我现在有两组数据，第一组是navigator的User-agent string，我们叫它A : 一个例子就是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; : SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media : Center PC 6.0; .NET4.0C; .NET4.0E; BRI/1; MDDC; InfoPath.1; BRI/2) : 另一组数据时browser的user-agent string,我们叫它B : 一个例子是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)
u*****o 发帖数: 1224	7 熊！抓住！我也觉得有点问题，感觉完全discard一组数据不太make sense，我胡乱算了半天也没有什么conclusive的结果。。。什么是sparse indicator？这两个string对每个用户都有记录，这也算sparse吗？【在 s*w 的大作中提到】 : 大波妹工作了啊 : 你这个问题有点问题，既然是同一个　user 的，显然是取两个　sparse indicator : vector　的　union 这样是最完整的信息
u*****o 发帖数: 1224	8 好，去查查你当上版主了呀，恭喜恭喜:) 【在 c***z 的大作中提到】 : 试试 Jaccard : http://en.wikipedia.org/wiki/Jaccard_index

u*****o 发帖数: 1224	9 试过了，不是太好使。。。这是一部分结果，我把distance normalized by length of string，换成0-1的百分数了。然后再根据browser的类型计算了一下平均数，比如：Safari browser average distance = 0.027 IE average distance = 0.55 Chrome average distance = 0.0008 这些数据并没有太大的意义呀，除了说明IE两组数据比较不像，Chrome非常相似。。其实还是说明一个并不是另一个的子集，应该用合集才不会lose information。。。【在 f******k 的大作中提到】 : try levenstein distance
b*****o 发帖数: 715	10 没有什么A类B类，useragent就是useragent，你提供的两个例子就是两个具体的不同的 useragent，不过两者都是IE10。第一个之所以会长一点是因为用户可能加了些插件，或者是电脑预装的一些设置。建议楼主先看看wikipedia上对于useragent的一些常识性解释：http://en.wikipedia.org/wiki/User_agent 我不太清楚你要做的项目是什么。但是一般来说，把useragent的raw string直接作为特征输入是很罕见的，一般情况下只要知道浏览器类型＋version就足够了（比如IE10 ）。如果你想要更全面的信息，比如family,sub-family, platform, os, locale,或者一些手机才有的信息比如carrier, java configuration,那你要问你老板要一个 useragent parser。我唯一一次直接使用useragent的raw string，是为了做useragent spoofing的研究。即我怀疑某些useragent的spammer伪装的，想研究一下它们的共性。【在 u*****o 的大作中提到】 : 我是菜鸟。。。刚刚上班不久就遇到一个不太解决的了的问题，希望牛牛们给点指点， : 让我好知道如何下手，马上要和老板谈思路，怕自己什么也说不出来。 : 我现在有两组数据，第一组是navigator的User-agent string，我们叫它A : 一个例子就是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; : SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media : Center PC 6.0; .NET4.0C; .NET4.0E; BRI/1; MDDC; InfoPath.1; BRI/2) : 另一组数据时browser的user-agent string,我们叫它B : 一个例子是 : Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)
d******4 发帖数: 132	11 Here we need to tell if A is a subset of B, not A is similar to B. If B outnumbers A with a large margin, then Jaccard would be very small even if A is a true subset of B. How about modifying Jaccard a little bit such as size(A intersection B)/size(A)? 【在 c***z 的大作中提到】 : 试试 Jaccard : http://en.wikipedia.org/wiki/Jaccard_index

1

(共1页)

进入DataSciences版参与讨论

相关主题
● Facebook DS onsite 求建议！顺便发个phone interview question攒人品
● 工作中的统计/machine learning问题求助：用什么metric比较两个string的相关性？
● NetStarTV not working?
● US Airways pending后批了, 但是benefits中没有提35k的事
● IE8下navigator.appVersion的值是什么? (转载)
● 还有一个关于Privacy Safeguard BHO
● 这儿有google网络搜索部门的么？ (转载)
● 这儿有google网络搜索部门的么？
● Win8 UC浏览器无任何IP限制
● python处理gb2312的问题

相关话题的讨论汇总
话题: string话题: useragent话题: net话题: clr话题: 数据