z**********i 发帖数: 12276 | 1 2个DATASETS, 都有一个HOSPITAL NAME的VARIABLE,但NAME的信息里会有些常见的情况,
比如,SAINT写成ST 或ST. 还有一些稀奇古怪的ENTRY.
这样一来,他们就没法MATCH. 大家处理过这样的数据,通过它们的名字来MATCH他们吗?
多谢!! |
g*****d 发帖数: 526 | 2 dataflux....
其实跟自己写code差不多。 |
z**********i 发帖数: 12276 | 3 谢谢!
我主要参照了这个.
www.nesug.org/proceedings/nesug08/cc/cc07.pdf
【在 g*****d 的大作中提到】 : dataflux.... : 其实跟自己写code差不多。
|
v******i 发帖数: 1246 | 4 很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output
出来没match上的那部分 再肉眼对一遍 |
g*********r 发帖数: 2847 | 5 are they claims data?
if so, there might be provider ID for you to map |
z**********i 发帖数: 12276 | 6 ID is not filled in, so want to match them by name...
【在 g*********r 的大作中提到】 : are they claims data? : if so, there might be provider ID for you to map
|
z**********i 发帖数: 12276 | 7 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
就想每天都要做饭一样. :-) 但做饭没人给我发工资.
要不,想着STAY HOME算拉.
【在 v******i 的大作中提到】 : 很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output : 出来没match上的那部分 再肉眼对一遍
|
g*********r 发帖数: 2847 | 8
haven't seen any fancy method.
what I might do is developing a map in Excel (search function may help) if
the dataset is not huge
【在 z**********i 的大作中提到】 : ID is not filled in, so want to match them by name...
|
z**********i 发帖数: 12276 | 9 Some fuzzy match papers I ever read.
For the ID match cases, I would confirm them by name or address using fuzzy
match.
For the missing ID cases, it is hard to match them. Actually, I got half of
them, but I may still missed some.
【在 g*********r 的大作中提到】 : : haven't seen any fancy method. : what I might do is developing a map in Excel (search function may help) if : the dataset is not huge
|
v******i 发帖数: 1246 | 10 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
【在 z**********i 的大作中提到】 : 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做. : 就想每天都要做饭一样. :-) 但做饭没人给我发工资. : 要不,想着STAY HOME算拉.
|
|
|
z**********i 发帖数: 12276 | 11 有CODE能SHARE吗?
多谢!
【在 v******i 的大作中提到】 : 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
|
g*********r 发帖数: 2847 | 12
never done such.
it is not effecient for clients to pay us for the grunt work
【在 v******i 的大作中提到】 : 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
|
v******i 发帖数: 1246 | 13 如果你的data要dedup by household 的话 一般都是要address clean的
【在 g*********r 的大作中提到】 : : never done such. : it is not effecient for clients to pay us for the grunt work
|
z**********i 发帖数: 12276 | 14 我的是医院的,没有HOUSEHOLD那么复杂,量大. :-)
【在 v******i 的大作中提到】 : 如果你的data要dedup by household 的话 一般都是要address clean的
|
z**********i 发帖数: 12276 | 15 看来,碰到懂行的了...
【在 v******i 的大作中提到】 : 如果你的data要dedup by household 的话 一般都是要address clean的
|
g*********r 发帖数: 2847 | 16
luckily we have the IDs in the data
【在 v******i 的大作中提到】 : 如果你的data要dedup by household 的话 一般都是要address clean的
|
z**********i 发帖数: 12276 | 17 2个DATASETS, 都有一个HOSPITAL NAME的VARIABLE,但NAME的信息里会有些常见的情况,
比如,SAINT写成ST 或ST. 还有一些稀奇古怪的ENTRY.
这样一来,他们就没法MATCH. 大家处理过这样的数据,通过它们的名字来MATCH他们吗?
多谢!! |
g*****d 发帖数: 526 | 18 dataflux....
其实跟自己写code差不多。 |
z**********i 发帖数: 12276 | 19 谢谢!
我主要参照了这个.
www.nesug.org/proceedings/nesug08/cc/cc07.pdf
【在 g*****d 的大作中提到】 : dataflux.... : 其实跟自己写code差不多。
|
v******i 发帖数: 1246 | 20 很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output
出来没match上的那部分 再肉眼对一遍 |
|
|
g*********r 发帖数: 2847 | 21 are they claims data?
if so, there might be provider ID for you to map |
z**********i 发帖数: 12276 | 22 ID is not filled in, so want to match them by name...
【在 g*********r 的大作中提到】 : are they claims data? : if so, there might be provider ID for you to map
|
z**********i 发帖数: 12276 | 23 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
就想每天都要做饭一样. :-) 但做饭没人给我发工资.
要不,想着STAY HOME算拉.
【在 v******i 的大作中提到】 : 很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output : 出来没match上的那部分 再肉眼对一遍
|
g*********r 发帖数: 2847 | 24
haven't seen any fancy method.
what I might do is developing a map in Excel (search function may help) if
the dataset is not huge
【在 z**********i 的大作中提到】 : ID is not filled in, so want to match them by name...
|
z**********i 发帖数: 12276 | 25 Some fuzzy match papers I ever read.
For the ID match cases, I would confirm them by name or address using fuzzy
match.
For the missing ID cases, it is hard to match them. Actually, I got half of
them, but I may still missed some.
【在 g*********r 的大作中提到】 : : haven't seen any fancy method. : what I might do is developing a map in Excel (search function may help) if : the dataset is not huge
|
v******i 发帖数: 1246 | 26 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
【在 z**********i 的大作中提到】 : 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做. : 就想每天都要做饭一样. :-) 但做饭没人给我发工资. : 要不,想着STAY HOME算拉.
|
z**********i 发帖数: 12276 | 27 有CODE能SHARE吗?
多谢!
【在 v******i 的大作中提到】 : 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
|
g*********r 发帖数: 2847 | 28
never done such.
it is not effecient for clients to pay us for the grunt work
【在 v******i 的大作中提到】 : 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
|
v******i 发帖数: 1246 | 29 如果你的data要dedup by household 的话 一般都是要address clean的
【在 g*********r 的大作中提到】 : : never done such. : it is not effecient for clients to pay us for the grunt work
|
z**********i 发帖数: 12276 | 30 我的是医院的,没有HOUSEHOLD那么复杂,量大. :-)
【在 v******i 的大作中提到】 : 如果你的data要dedup by household 的话 一般都是要address clean的
|
|
|
z**********i 发帖数: 12276 | 31 看来,碰到懂行的了...
【在 v******i 的大作中提到】 : 如果你的data要dedup by household 的话 一般都是要address clean的
|
g*********r 发帖数: 2847 | 32
luckily we have the IDs in the data
【在 v******i 的大作中提到】 : 如果你的data要dedup by household 的话 一般都是要address clean的
|
S******y 发帖数: 1123 | |