由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 用dl找出两个数据库tables是不是有相同的rows?
相关主题
[bssd]有本书Spark 和 Tensorflow 线性回归问题
这个bigdata的学习路线图不错啊Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
L家不再用scala了。。[bssd]这波AI现在缺的就是语言或者操作系统吧?
越来越觉得spark是niche请教deep learning好找工作么
有什么好的cloud/bigdata 技术方面的会议?[bssd] 广义相对论=>神经网络几何化?
内部推荐BigData工作机会volta一出,业余玩家都要玩完啦
从今天起开始鼓吹R了h2o好像突然火了
mxnet/tf的一个比较blog如何评价google的Cloud AutoML
相关话题的讨论汇总
话题: dl话题: 取代话题: coursera话题: 两个话题: 例子
进入Programming版参与讨论
1 (共1页)
n*w
发帖数: 3393
1
有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
值值可能有少量出入。text字段写的有点不同,等等。
有没有可能用tensor flow 来做。也想借机会学习。
----------------
举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。
m******r
发帖数: 1033
2
你太搞笑了。
这个其实很简单。 把每个表的metadata搞出来,然后看看多长,多宽,每列是什么名
字, 什么数据类型。
n*w
发帖数: 3393
3
这个和meta无关。两个表schema都是一样的。只是值有少量出入或缺失。
row多一点计算量也是很大的。
w***g
发帖数: 5958
4
杀鸡用牛刀啊.

【在 n*w 的大作中提到】
: 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
: 值值可能有少量出入。text字段写的有点不同,等等。
: 有没有可能用tensor flow 来做。也想借机会学习。
: ----------------
: 举个例子说明下细节。
: 两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
: 证号码,这些可以准确地找到两个表的对应记录。
: 剩下没身份证号的,举个例,
: 面积:一个表给的数字精确到十,一个精确到个位。810, 813
: 地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。

n*w
发帖数: 3393
5

:杀鸡用牛刀啊.

是的。目的是为了学习和buzz word
w***g
发帖数: 5958
6
但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
但是我感觉既学不好烤箱也学不好红烧肉.

【在 n*w 的大作中提到】
:
: :杀鸡用牛刀啊.
: :
: 是的。目的是为了学习和buzz word

l******n
发帖数: 9344
7
你想找相似的column吧?
我做过这个,用metadata就可以,然后考虑计算问题需要用到特殊的sampling
这个和dl一点关系都没有

【在 n*w 的大作中提到】
:
: :杀鸡用牛刀啊.
: :
: 是的。目的是为了学习和buzz word

m******r
发帖数: 1033
8
那要不这样儿,每个列,算出p0, p50, p100
然后目测一下。
说实话,我不觉得比较metadata有什么不好;不过既然你有看法,我就换个蠢点的办法
。我在工作里也经常碰到这种情况,明明简单易行的办法,老板非这个那个,一开始我
还争辩。 现在也学乖了,你要怎么做,我就怎么做。你是老板,我是打工的。 上班拿
钱,下班走人。
h**********c
发帖数: 4120
9
把表打印出来,扫描,上tensorflow,大致就这意思,估计不会很慢,中间可以GPU
render
20伪币

【在 n*w 的大作中提到】
: 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
: 值值可能有少量出入。text字段写的有点不同,等等。
: 有没有可能用tensor flow 来做。也想借机会学习。
: ----------------
: 举个例子说明下细节。
: 两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
: 证号码,这些可以准确地找到两个表的对应记录。
: 剩下没身份证号的,举个例,
: 面积:一个表给的数字精确到十,一个精确到个位。810, 813
: 地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。

n*w
发帖数: 3393
10
举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。
相关主题
内部推荐BigData工作机会Spark 和 Tensorflow 线性回归问题
从今天起开始鼓吹R了Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
mxnet/tf的一个比较blog[bssd]这波AI现在缺的就是语言或者操作系统吧?
进入Programming版参与讨论
g****t
发帖数: 31659
11
找少量数据集训练下,dl识别出来错误pattern.
然后dl预测出来可能出现问题的部分,对这部分优先进行
Metadata比较。
Dl承担coarse 比较的任务。
这个思路怎么样?如果数据量很大的话可能会有使用价值的哦。很多问题第一层要想办
法把人的直觉装进去,然后第二层再细粒度解决。我现在觉得dl能把很多问题的第一层
都装起来


: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,

: 但是我感觉既学不好烤箱也学不好红烧肉.



【在 w***g 的大作中提到】
: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
: 但是我感觉既学不好烤箱也学不好红烧肉.

c******r
发帖数: 512
12
这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这样
的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练,
人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子就
是差不多就好。
g****t
发帖数: 31659
13
数据库的东西不可能完全取代人的
更高效更强壮即可


: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门
讲了一
个这样

: 的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多,
基本是
训练,

: 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,
取代绝
大部分

: 人工 -- 现在做不到完全取代,当然有的情况不需要完全取代,
Coursera 上的
例子就

: 是差不多就好。



【在 c******r 的大作中提到】
: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这样
: 的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练,
: 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
: 人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子就
: 是差不多就好。

n*w
发帖数: 3393
14
不用完全取代人工。我这个在最后还是要人逐个批准。只要能减轻人工作量就可以了。

:这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这
样的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练
, 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
:人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子
就是差不多就好。
d******c
发帖数: 2407
15
这实际是data cleaning,就你举得例子来看,这个问题很难。
地址的标准化就很难,美国地址算是非常规律的了,但是地区性差异很大。我读过usps
关于地址的manual,很多东西一般人不知道。
- 有两个州用坐标,也就是在xy轴上划区,然后每个地址都带个这种坐标,比如Q5,C3
- NY的地址最头疼,因为数字街名简写了以后很多时候很难区分。
- 有许多地址只有当地人才能解析
一般的办法也就是用正则表达式,模糊匹配,全是经验性的。
至于后面什么北电的例子,这种缩写也不容易。
说起来这种问题是适合ML/DL处理的,问题是DL全靠数据,你有足够大的训练集吗?标
记好的数据?
n*w
发帖数: 3393
16
有很多组,有大有大有小。一般有80%可以很容易找出来,大概几十万对。可以用来
training。

:这实际是data cleaning,就你举得例子来看,这个问题很难。
w***g
发帖数: 5958
17
这个分析牛!

usps
C3

【在 d******c 的大作中提到】
: 这实际是data cleaning,就你举得例子来看,这个问题很难。
: 地址的标准化就很难,美国地址算是非常规律的了,但是地区性差异很大。我读过usps
: 关于地址的manual,很多东西一般人不知道。
: - 有两个州用坐标,也就是在xy轴上划区,然后每个地址都带个这种坐标,比如Q5,C3
: - NY的地址最头疼,因为数字街名简写了以后很多时候很难区分。
: - 有许多地址只有当地人才能解析
: 一般的办法也就是用正则表达式,模糊匹配,全是经验性的。
: 至于后面什么北电的例子,这种缩写也不容易。
: 说起来这种问题是适合ML/DL处理的,问题是DL全靠数据,你有足够大的训练集吗?标
: 记好的数据?

d******c
发帖数: 2407
18
有数据就可以用ML做,不一定要DL。
data cleaning的最大问题是太多样化。data cleaning里牵涉的东西很多,往往是很多
类问题,比如某些缩写用到一些常识。
但是数据究竟够不够,不好说。很多时候全是些特例,你的训练集实际cover不了。如
果人看一下子就能明白,能总结规律,问题是你不能指望人去总结。
如果有无限的训练集,DL肯定能把这个问题解决好。

【在 n*w 的大作中提到】
: 有很多组,有大有大有小。一般有80%可以很容易找出来,大概几十万对。可以用来
: training。
:
: :这实际是data cleaning,就你举得例子来看,这个问题很难。
: :

n*w
发帖数: 3393
19
具体来说用哪个library来做比较合适?步骤?
tensor flow可以吗?

:有数据就可以用ML做,不一定要DL。
m****o
发帖数: 182
20
个人建议不要折腾ML。没有semantic similarly做record linkage效果还赶不上直接
rule based。
y*****g
发帖数: 5
21
这个问题属于data integration大分类下的entity matching吧。
可以看看这个ppt,里面有一些基础知识..
http://www.cs.wisc.edu/~anhai/courses/638-fall16/lectures/data-matching.ppt
1 (共1页)
进入Programming版参与讨论
相关主题
如何评价google的Cloud AutoML有什么好的cloud/bigdata 技术方面的会议?
pytorch技术上先进一些?内部推荐BigData工作机会
各位自动驾驶技术发烧友们从今天起开始鼓吹R了
titan v评测不高啊mxnet/tf的一个比较blog
[bssd]有本书Spark 和 Tensorflow 线性回归问题
这个bigdata的学习路线图不错啊Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
L家不再用scala了。。[bssd]这波AI现在缺的就是语言或者操作系统吧?
越来越觉得spark是niche请教deep learning好找工作么
相关话题的讨论汇总
话题: dl话题: 取代话题: coursera话题: 两个话题: 例子