n*w 发帖数: 3393 | 1 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
值值可能有少量出入。text字段写的有点不同,等等。
有没有可能用tensor flow 来做。也想借机会学习。
----------------
举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。 |
m******r 发帖数: 1033 | 2 你太搞笑了。
这个其实很简单。 把每个表的metadata搞出来,然后看看多长,多宽,每列是什么名
字, 什么数据类型。 |
n*w 发帖数: 3393 | 3 这个和meta无关。两个表schema都是一样的。只是值有少量出入或缺失。
row多一点计算量也是很大的。 |
w***g 发帖数: 5958 | 4 杀鸡用牛刀啊.
【在 n*w 的大作中提到】 : 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数 : 值值可能有少量出入。text字段写的有点不同,等等。 : 有没有可能用tensor flow 来做。也想借机会学习。 : ---------------- : 举个例子说明下细节。 : 两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份 : 证号码,这些可以准确地找到两个表的对应记录。 : 剩下没身份证号的,举个例, : 面积:一个表给的数字精确到十,一个精确到个位。810, 813 : 地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
|
n*w 发帖数: 3393 | 5
:杀鸡用牛刀啊.
:
是的。目的是为了学习和buzz word |
w***g 发帖数: 5958 | 6 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
但是我感觉既学不好烤箱也学不好红烧肉.
【在 n*w 的大作中提到】 : : :杀鸡用牛刀啊. : : : 是的。目的是为了学习和buzz word
|
l******n 发帖数: 9344 | 7 你想找相似的column吧?
我做过这个,用metadata就可以,然后考虑计算问题需要用到特殊的sampling
这个和dl一点关系都没有
【在 n*w 的大作中提到】 : : :杀鸡用牛刀啊. : : : 是的。目的是为了学习和buzz word
|
m******r 发帖数: 1033 | 8 那要不这样儿,每个列,算出p0, p50, p100
然后目测一下。
说实话,我不觉得比较metadata有什么不好;不过既然你有看法,我就换个蠢点的办法
。我在工作里也经常碰到这种情况,明明简单易行的办法,老板非这个那个,一开始我
还争辩。 现在也学乖了,你要怎么做,我就怎么做。你是老板,我是打工的。 上班拿
钱,下班走人。 |
h**********c 发帖数: 4120 | 9 把表打印出来,扫描,上tensorflow,大致就这意思,估计不会很慢,中间可以GPU
render
20伪币
【在 n*w 的大作中提到】 : 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数 : 值值可能有少量出入。text字段写的有点不同,等等。 : 有没有可能用tensor flow 来做。也想借机会学习。 : ---------------- : 举个例子说明下细节。 : 两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份 : 证号码,这些可以准确地找到两个表的对应记录。 : 剩下没身份证号的,举个例, : 面积:一个表给的数字精确到十,一个精确到个位。810, 813 : 地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
|
n*w 发帖数: 3393 | 10 举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。 |
|
|
g****t 发帖数: 31659 | 11 找少量数据集训练下,dl识别出来错误pattern.
然后dl预测出来可能出现问题的部分,对这部分优先进行
Metadata比较。
Dl承担coarse 比较的任务。
这个思路怎么样?如果数据量很大的话可能会有使用价值的哦。很多问题第一层要想办
法把人的直觉装进去,然后第二层再细粒度解决。我现在觉得dl能把很多问题的第一层
都装起来
: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
: 但是我感觉既学不好烤箱也学不好红烧肉.
【在 w***g 的大作中提到】 : 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做, : 但是我感觉既学不好烤箱也学不好红烧肉.
|
c******r 发帖数: 512 | 12 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这样
的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练,
人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子就
是差不多就好。 |
g****t 发帖数: 31659 | 13 数据库的东西不可能完全取代人的
更高效更强壮即可
: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门
讲了一
个这样
: 的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多,
基本是
训练,
: 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,
取代绝
大部分
: 人工 -- 现在做不到完全取代,当然有的情况不需要完全取代,
Coursera 上的
例子就
: 是差不多就好。
【在 c******r 的大作中提到】 : 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这样 : 的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练, : 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分 : 人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子就 : 是差不多就好。
|
n*w 发帖数: 3393 | 14 不用完全取代人工。我这个在最后还是要人逐个批准。只要能减轻人工作量就可以了。
:这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这
样的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练
, 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
:人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子
就是差不多就好。 |
d******c 发帖数: 2407 | 15 这实际是data cleaning,就你举得例子来看,这个问题很难。
地址的标准化就很难,美国地址算是非常规律的了,但是地区性差异很大。我读过usps
关于地址的manual,很多东西一般人不知道。
- 有两个州用坐标,也就是在xy轴上划区,然后每个地址都带个这种坐标,比如Q5,C3
- NY的地址最头疼,因为数字街名简写了以后很多时候很难区分。
- 有许多地址只有当地人才能解析
一般的办法也就是用正则表达式,模糊匹配,全是经验性的。
至于后面什么北电的例子,这种缩写也不容易。
说起来这种问题是适合ML/DL处理的,问题是DL全靠数据,你有足够大的训练集吗?标
记好的数据? |
n*w 发帖数: 3393 | 16 有很多组,有大有大有小。一般有80%可以很容易找出来,大概几十万对。可以用来
training。
:这实际是data cleaning,就你举得例子来看,这个问题很难。
: |
w***g 发帖数: 5958 | 17 这个分析牛!
usps
C3
【在 d******c 的大作中提到】 : 这实际是data cleaning,就你举得例子来看,这个问题很难。 : 地址的标准化就很难,美国地址算是非常规律的了,但是地区性差异很大。我读过usps : 关于地址的manual,很多东西一般人不知道。 : - 有两个州用坐标,也就是在xy轴上划区,然后每个地址都带个这种坐标,比如Q5,C3 : - NY的地址最头疼,因为数字街名简写了以后很多时候很难区分。 : - 有许多地址只有当地人才能解析 : 一般的办法也就是用正则表达式,模糊匹配,全是经验性的。 : 至于后面什么北电的例子,这种缩写也不容易。 : 说起来这种问题是适合ML/DL处理的,问题是DL全靠数据,你有足够大的训练集吗?标 : 记好的数据?
|
d******c 发帖数: 2407 | 18 有数据就可以用ML做,不一定要DL。
data cleaning的最大问题是太多样化。data cleaning里牵涉的东西很多,往往是很多
类问题,比如某些缩写用到一些常识。
但是数据究竟够不够,不好说。很多时候全是些特例,你的训练集实际cover不了。如
果人看一下子就能明白,能总结规律,问题是你不能指望人去总结。
如果有无限的训练集,DL肯定能把这个问题解决好。
【在 n*w 的大作中提到】 : 有很多组,有大有大有小。一般有80%可以很容易找出来,大概几十万对。可以用来 : training。 : : :这实际是data cleaning,就你举得例子来看,这个问题很难。 : :
|
n*w 发帖数: 3393 | 19 具体来说用哪个library来做比较合适?步骤?
tensor flow可以吗?
:有数据就可以用ML做,不一定要DL。
: |
m****o 发帖数: 182 | 20 个人建议不要折腾ML。没有semantic similarly做record linkage效果还赶不上直接
rule based。 |
y*****g 发帖数: 5 | |