关于MATCH HOSPITAL NAME - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 关于MATCH HOSPITAL NAME

相关主题
● [Data Science Project Case] Fuzzy matching on names (转载)	● sas 简单问题
● SAS: fuzzy match	● how to write a series of variables Q29B4B-Q29B30B in array ?
● SAS DATA 求助	● sas新手求救，合并databases
● genmod的问题	● one quick question about concatenating data in SAS
● question about using sas macro variable and do loop	● 请教关于SAS fuzzy match merge的问题
● 如何比较两个proc contents的结果？	● sas programming question
● two SAS macro questions	● 从大data 产生多个小data 的方法
● how to get variable names and # of variable names in sas dataset	● 发包子求大牛解SAS问题，急

相关话题的讨论汇总
话题: match话题: name话题: hospital话题: them话题: data

进入Statistics版参与讨论

(共1页)

z**********i
发帖数: 12276

2个DATASETS, 都有一个HOSPITAL NAME的VARIABLE,但NAME的信息里会有些常见的情况,
比如,SAINT写成ST 或ST. 还有一些稀奇古怪的ENTRY.
这样一来,他们就没法MATCH. 大家处理过这样的数据,通过它们的名字来MATCH他们吗?
多谢!!

g*****d
发帖数: 526

dataflux....
其实跟自己写code差不多。

z**********i
发帖数: 12276

谢谢!
我主要参照了这个.
www.nesug.org/proceedings/nesug08/cc/cc07.pdf

【在 g*****d 的大作中提到】

: dataflux....
: 其实跟自己写code差不多。

v******i
发帖数: 1246

很麻烦必须把两套名字用同样的方法clean一遍这样还是会有很多对不上的 output
出来没match上的那部分再肉眼对一遍

g*********r
发帖数: 2847

are they claims data?
if so, there might be provider ID for you to map

z**********i
发帖数: 12276

ID is not filled in, so want to match them by name...

【在 g*********r 的大作中提到】

: are they claims data?
: if so, there might be provider ID for you to map

z**********i
发帖数: 12276

是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
就想每天都要做饭一样. :-) 但做饭没人给我发工资.
要不,想着STAY HOME算拉.

【在 v******i 的大作中提到】

: 很麻烦必须把两套名字用同样的方法clean一遍这样还是会有很多对不上的 output
: 出来没match上的那部分再肉眼对一遍

g*********r
发帖数: 2847

haven't seen any fancy method.
what I might do is developing a map in Excel (search function may help) if
the dataset is not huge

【在 z**********i 的大作中提到】

: ID is not filled in, so want to match them by name...

z**********i
发帖数: 12276

Some fuzzy match papers I ever read.
For the ID match cases, I would confirm them by name or address using fuzzy
match.
For the missing ID cases, it is hard to match them. Actually, I got half of
them, but I may still missed some.

【在 g*********r 的大作中提到】

:
: haven't seen any fancy method.
: what I might do is developing a map in Excel (search function may help) if
: the dataset is not huge

v******i
发帖数: 1246

恩比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

【在 z**********i 的大作中提到】

: 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
: 就想每天都要做饭一样. :-) 但做饭没人给我发工资.
: 要不,想着STAY HOME算拉.

相关主题
● 如何比较两个proc contents的结果？	● sas 简单问题
● two SAS macro questions	● how to write a series of variables Q29B4B-Q29B30B in array ?
● how to get variable names and # of variable names in sas dataset	● sas新手求救，合并databases
进入Statistics版参与讨论

z**********i
发帖数: 12276

有CODE能SHARE吗?
多谢!

【在 v******i 的大作中提到】

: 恩比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

g*********r
发帖数: 2847

never done such.
it is not effecient for clients to pay us for the grunt work

【在 v******i 的大作中提到】

: 恩比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

v******i
发帖数: 1246

如果你的data要dedup by household 的话一般都是要address clean的

【在 g*********r 的大作中提到】

:
: never done such.
: it is not effecient for clients to pay us for the grunt work

z**********i
发帖数: 12276

我的是医院的,没有HOUSEHOLD那么复杂,量大. :-)

【在 v******i 的大作中提到】

: 如果你的data要dedup by household 的话一般都是要address clean的

z**********i
发帖数: 12276

看来,碰到懂行的了...

【在 v******i 的大作中提到】

: 如果你的data要dedup by household 的话一般都是要address clean的

g*********r
发帖数: 2847

luckily we have the IDs in the data

【在 v******i 的大作中提到】

: 如果你的data要dedup by household 的话一般都是要address clean的

z**********i
发帖数: 12276

g*****d
发帖数: 526

dataflux....
其实跟自己写code差不多。

z**********i
发帖数: 12276

谢谢!
我主要参照了这个.
www.nesug.org/proceedings/nesug08/cc/cc07.pdf

【在 g*****d 的大作中提到】

: dataflux....
: 其实跟自己写code差不多。

v******i
发帖数: 1246

很麻烦必须把两套名字用同样的方法clean一遍这样还是会有很多对不上的 output
出来没match上的那部分再肉眼对一遍

相关主题
● one quick question about concatenating data in SAS	● 从大data 产生多个小data 的方法
● 请教关于SAS fuzzy match merge的问题	● 发包子求大牛解SAS问题，急
● sas programming question	● SAS Question
进入Statistics版参与讨论

g*********r
发帖数: 2847

are they claims data?
if so, there might be provider ID for you to map

z**********i
发帖数: 12276

ID is not filled in, so want to match them by name...

【在 g*********r 的大作中提到】

: are they claims data?
: if so, there might be provider ID for you to map

z**********i
发帖数: 12276

: 很麻烦必须把两套名字用同样的方法clean一遍这样还是会有很多对不上的 output
: 出来没match上的那部分再肉眼对一遍

g*********r
发帖数: 2847

haven't seen any fancy method.
what I might do is developing a map in Excel (search function may help) if
the dataset is not huge

【在 z**********i 的大作中提到】

: ID is not filled in, so want to match them by name...

z**********i
发帖数: 12276

:
: haven't seen any fancy method.
: what I might do is developing a map in Excel (search function may help) if
: the dataset is not huge

v******i
发帖数: 1246

恩比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

【在 z**********i 的大作中提到】

: 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
: 就想每天都要做饭一样. :-) 但做饭没人给我发工资.
: 要不,想着STAY HOME算拉.

z**********i
发帖数: 12276

有CODE能SHARE吗?
多谢!

【在 v******i 的大作中提到】

: 恩比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

g*********r
发帖数: 2847

never done such.
it is not effecient for clients to pay us for the grunt work

【在 v******i 的大作中提到】

: 恩比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

v******i
发帖数: 1246

如果你的data要dedup by household 的话一般都是要address clean的

【在 g*********r 的大作中提到】

:
: never done such.
: it is not effecient for clients to pay us for the grunt work

z**********i
发帖数: 12276

我的是医院的,没有HOUSEHOLD那么复杂,量大. :-)

【在 v******i 的大作中提到】

: 如果你的data要dedup by household 的话一般都是要address clean的

相关主题
● Dataset merge的一个问题	● SAS: fuzzy match
● 请教如何写这个sas代码？	● SAS DATA 求助
● [Data Science Project Case] Fuzzy matching on names (转载)	● genmod的问题
进入Statistics版参与讨论

z**********i
发帖数: 12276

看来,碰到懂行的了...

【在 v******i 的大作中提到】

: 如果你的data要dedup by household 的话一般都是要address clean的

g*********r
发帖数: 2847

luckily we have the IDs in the data

【在 v******i 的大作中提到】

: 如果你的data要dedup by household 的话一般都是要address clean的

S******y
发帖数: 1123

use regular expression

(共1页)

进入Statistics版参与讨论

相关主题
● 发包子求大牛解SAS问题，急	● question about using sas macro variable and do loop
● SAS Question	● 如何比较两个proc contents的结果？
● Dataset merge的一个问题	● two SAS macro questions
● 请教如何写这个sas代码？	● how to get variable names and # of variable names in sas dataset
● [Data Science Project Case] Fuzzy matching on names (转载)	● sas 简单问题
● SAS: fuzzy match	● how to write a series of variables Q29B4B-Q29B30B in array ?
● SAS DATA 求助	● sas新手求救，合并databases
● genmod的问题	● one quick question about concatenating data in SAS

相关话题的讨论汇总
话题: match话题: name话题: hospital话题: them话题: data

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天