用dl找出两个数据库tables是不是有相同的rows？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 用dl找出两个数据库tables是不是有相同的rows？

相关主题
● [bssd]有本书	● Spark 和 Tensorflow 线性回归问题
● 这个bigdata的学习路线图不错啊	● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
● L家不再用scala了。。	● [bssd]这波AI现在缺的就是语言或者操作系统吧？
● 越来越觉得spark是niche	● 请教deep learning好找工作么
● 有什么好的cloud/bigdata 技术方面的会议？	● [bssd] 广义相对论=>神经网络几何化?
● 内部推荐BigData工作机会	● volta一出，业余玩家都要玩完啦
● 从今天起开始鼓吹R了	● h2o好像突然火了
● mxnet/tf的一个比较blog	● 如何评价google的Cloud AutoML

相关话题的讨论汇总
话题: dl话题: 取代话题: coursera话题: 两个话题: 例子

进入Programming版参与讨论

(共1页)

n*w
发帖数: 3393

有两个表，很多记录实际上是一个东西。当列里的值可能不同，比如某行缺两个值。数
值值可能有少量出入。text字段写的有点不同，等等。
有没有可能用tensor flow 来做。也想借机会学习。
----------------
举个例子说明下细节。
两个数据分别从不同公司获得，假如说是房子信息。其中大约有80%的行有房主的身份
证号码，这些可以准确地找到两个表的对应记录。
剩下没身份证号的，举个例，
面积：一个表给的数字精确到十，一个精确到个位。810， 813
地址：一个给到街道或building，无号码，一个给到公寓号，但街道简写了。
建筑年代：一个给"80s"，一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班"，一个是"北电 1990-3".
等等，
人看到可以把这两个对应起来。

m******r
发帖数: 1033

你太搞笑了。
这个其实很简单。把每个表的metadata搞出来，然后看看多长，多宽，每列是什么名
字，什么数据类型。

n*w
发帖数: 3393

这个和meta无关。两个表schema都是一样的。只是值有少量出入或缺失。
row多一点计算量也是很大的。

w***g
发帖数: 5958

杀鸡用牛刀啊.

【在 n*w 的大作中提到】

: 有两个表，很多记录实际上是一个东西。当列里的值可能不同，比如某行缺两个值。数
: 值值可能有少量出入。text字段写的有点不同，等等。
: 有没有可能用tensor flow 来做。也想借机会学习。
: ----------------
: 举个例子说明下细节。
: 两个数据分别从不同公司获得，假如说是房子信息。其中大约有80%的行有房主的身份
: 证号码，这些可以准确地找到两个表的对应记录。
: 剩下没身份证号的，举个例，
: 面积：一个表给的数字精确到十，一个精确到个位。810， 813
: 地址：一个给到街道或building，无号码，一个给到公寓号，但街道简写了。

n*w
发帖数: 3393

：杀鸡用牛刀啊.
：
是的。目的是为了学习和buzz word

w***g
发帖数: 5958

但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
但是我感觉既学不好烤箱也学不好红烧肉.

【在 n*w 的大作中提到】

:
: ：杀鸡用牛刀啊.
: ：
: 是的。目的是为了学习和buzz word

l******n
发帖数: 9344

你想找相似的column吧？
我做过这个，用metadata就可以，然后考虑计算问题需要用到特殊的sampling
这个和dl一点关系都没有

【在 n*w 的大作中提到】

:
: ：杀鸡用牛刀啊.
: ：
: 是的。目的是为了学习和buzz word

m******r
发帖数: 1033

那要不这样儿，每个列，算出p0, p50, p100
然后目测一下。
说实话，我不觉得比较metadata有什么不好；不过既然你有看法，我就换个蠢点的办法
。我在工作里也经常碰到这种情况，明明简单易行的办法，老板非这个那个，一开始我
还争辩。现在也学乖了，你要怎么做，我就怎么做。你是老板，我是打工的。上班拿
钱，下班走人。

h**********c
发帖数: 4120

把表打印出来，扫描，上tensorflow,大致就这意思，估计不会很慢，中间可以GPU
render
20伪币

【在 n*w 的大作中提到】

n*w
发帖数: 3393

举个例子说明下细节。
两个数据分别从不同公司获得，假如说是房子信息。其中大约有80%的行有房主的身份
证号码，这些可以准确地找到两个表的对应记录。
剩下没身份证号的，举个例，
面积：一个表给的数字精确到十，一个精确到个位。810， 813
地址：一个给到街道或building，无号码，一个给到公寓号，但街道简写了。
建筑年代：一个给"80s"，一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班"，一个是"北电 1990-3".
等等，
人看到可以把这两个对应起来。

相关主题
● 内部推荐BigData工作机会	● Spark 和 Tensorflow 线性回归问题
● 从今天起开始鼓吹R了	● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
● mxnet/tf的一个比较blog	● [bssd]这波AI现在缺的就是语言或者操作系统吧？
进入Programming版参与讨论

g****t
发帖数: 31659

找少量数据集训练下，dl识别出来错误pattern.
然后dl预测出来可能出现问题的部分，对这部分优先进行
Metadata比较。
Dl承担coarse 比较的任务。
这个思路怎么样？如果数据量很大的话可能会有使用价值的哦。很多问题第一层要想办
法把人的直觉装进去，然后第二层再细粒度解决。我现在觉得dl能把很多问题的第一层
都装起来

: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,

: 但是我感觉既学不好烤箱也学不好红烧肉.

【在 w***g 的大作中提到】

: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
: 但是我感觉既学不好烤箱也学不好红烧肉.

c******r
发帖数: 512

这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课，专门讲了一个这样
的例子。 Stonebraker 的新公司在搞这个，思路和 guvest 差不多，基本是训练，
人工干预，再训练，再干预，知道最后大规模上达到机器基本做好，取代绝大部分
人工 -- 现在做不到完全取代，当然有的情况不需要完全取代， Coursera 上的例子就
是差不多就好。

g****t
发帖数: 31659

数据库的东西不可能完全取代人的
更高效更强壮即可

: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课，专门
讲了一
个这样

: 的例子。 Stonebraker 的新公司在搞这个，思路和 guvest 差不多，
基本是
训练，

: 人工干预，再训练，再干预，知道最后大规模上达到机器基本做好，
取代绝
大部分

: 人工 -- 现在做不到完全取代，当然有的情况不需要完全取代，
Coursera 上的
例子就

: 是差不多就好。

【在 c******r 的大作中提到】

: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课，专门讲了一个这样
: 的例子。 Stonebraker 的新公司在搞这个，思路和 guvest 差不多，基本是训练，
: 人工干预，再训练，再干预，知道最后大规模上达到机器基本做好，取代绝大部分
: 人工 -- 现在做不到完全取代，当然有的情况不需要完全取代， Coursera 上的例子就
: 是差不多就好。

n*w
发帖数: 3393

不用完全取代人工。我这个在最后还是要人逐个批准。只要能减轻人工作量就可以了。

：这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课，专门讲了一个这
样的例子。 Stonebraker 的新公司在搞这个，思路和 guvest 差不多，基本是训练
，人工干预，再训练，再干预，知道最后大规模上达到机器基本做好，取代绝大部分
：人工 -- 现在做不到完全取代，当然有的情况不需要完全取代， Coursera 上的例子
就是差不多就好。

d******c
发帖数: 2407

这实际是data cleaning，就你举得例子来看，这个问题很难。
地址的标准化就很难，美国地址算是非常规律的了，但是地区性差异很大。我读过usps
关于地址的manual，很多东西一般人不知道。
- 有两个州用坐标，也就是在xy轴上划区，然后每个地址都带个这种坐标，比如Q5，C3
- NY的地址最头疼，因为数字街名简写了以后很多时候很难区分。
- 有许多地址只有当地人才能解析
一般的办法也就是用正则表达式，模糊匹配，全是经验性的。
至于后面什么北电的例子，这种缩写也不容易。
说起来这种问题是适合ML/DL处理的，问题是DL全靠数据，你有足够大的训练集吗？标
记好的数据？

n*w
发帖数: 3393

有很多组，有大有大有小。一般有80%可以很容易找出来，大概几十万对。可以用来
training。

：这实际是data cleaning，就你举得例子来看，这个问题很难。
：

w***g
发帖数: 5958

这个分析牛！

usps
C3

【在 d******c 的大作中提到】

: 这实际是data cleaning，就你举得例子来看，这个问题很难。
: 地址的标准化就很难，美国地址算是非常规律的了，但是地区性差异很大。我读过usps
: 关于地址的manual，很多东西一般人不知道。
: - 有两个州用坐标，也就是在xy轴上划区，然后每个地址都带个这种坐标，比如Q5，C3
: - NY的地址最头疼，因为数字街名简写了以后很多时候很难区分。
: - 有许多地址只有当地人才能解析
: 一般的办法也就是用正则表达式，模糊匹配，全是经验性的。
: 至于后面什么北电的例子，这种缩写也不容易。
: 说起来这种问题是适合ML/DL处理的，问题是DL全靠数据，你有足够大的训练集吗？标
: 记好的数据？

d******c
发帖数: 2407

有数据就可以用ML做，不一定要DL。
data cleaning的最大问题是太多样化。data cleaning里牵涉的东西很多，往往是很多
类问题，比如某些缩写用到一些常识。
但是数据究竟够不够，不好说。很多时候全是些特例，你的训练集实际cover不了。如
果人看一下子就能明白，能总结规律，问题是你不能指望人去总结。
如果有无限的训练集，DL肯定能把这个问题解决好。

【在 n*w 的大作中提到】

: 有很多组，有大有大有小。一般有80%可以很容易找出来，大概几十万对。可以用来
: training。
:
: ：这实际是data cleaning，就你举得例子来看，这个问题很难。
: ：

n*w
发帖数: 3393

具体来说用哪个library来做比较合适？步骤？
tensor flow可以吗？

：有数据就可以用ML做，不一定要DL。
：

m****o
发帖数: 182

个人建议不要折腾ML。没有semantic similarly做record linkage效果还赶不上直接
rule based。

y*****g
发帖数: 5

这个问题属于data integration大分类下的entity matching吧。
可以看看这个ppt，里面有一些基础知识..
http://www.cs.wisc.edu/~anhai/courses/638-fall16/lectures/data-matching.ppt

(共1页)

进入Programming版参与讨论

相关主题
● 如何评价google的Cloud AutoML	● 有什么好的cloud/bigdata 技术方面的会议？
● pytorch技术上先进一些？	● 内部推荐BigData工作机会
● 各位自动驾驶技术发烧友们	● 从今天起开始鼓吹R了
● titan v评测不高啊	● mxnet/tf的一个比较blog
● [bssd]有本书	● Spark 和 Tensorflow 线性回归问题
● 这个bigdata的学习路线图不错啊	● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
● L家不再用scala了。。	● [bssd]这波AI现在缺的就是语言或者操作系统吧？
● 越来越觉得spark是niche	● 请教deep learning好找工作么

相关话题的讨论汇总
话题: dl话题: 取代话题: coursera话题: 两个话题: 例子

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天