由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 关于MATCH HOSPITAL NAME
相关主题
[Data Science Project Case] Fuzzy matching on names (转载)sas 简单问题
SAS: fuzzy matchhow to write a series of variables Q29B4B-Q29B30B in array ?
SAS DATA 求助sas新手求救,合并databases
genmod的问题one quick question about concatenating data in SAS
question about using sas macro variable and do loop请教关于SAS fuzzy match merge的问题
如何比较两个proc contents的结果?sas programming question
two SAS macro questions从大data 产生多个小data 的方法
how to get variable names and # of variable names in sas dataset发包子求大牛解SAS问题,急
相关话题的讨论汇总
话题: match话题: name话题: hospital话题: them话题: data
进入Statistics版参与讨论
1 (共1页)
z**********i
发帖数: 12276
1
2个DATASETS, 都有一个HOSPITAL NAME的VARIABLE,但NAME的信息里会有些常见的情况,
比如,SAINT写成ST 或ST. 还有一些稀奇古怪的ENTRY.
这样一来,他们就没法MATCH. 大家处理过这样的数据,通过它们的名字来MATCH他们吗?
多谢!!
g*****d
发帖数: 526
2
dataflux....
其实跟自己写code差不多。
z**********i
发帖数: 12276
3
谢谢!
我主要参照了这个.
www.nesug.org/proceedings/nesug08/cc/cc07.pdf

【在 g*****d 的大作中提到】
: dataflux....
: 其实跟自己写code差不多。

v******i
发帖数: 1246
4
很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output
出来没match上的那部分 再肉眼对一遍
g*********r
发帖数: 2847
5
are they claims data?
if so, there might be provider ID for you to map
z**********i
发帖数: 12276
6
ID is not filled in, so want to match them by name...

【在 g*********r 的大作中提到】
: are they claims data?
: if so, there might be provider ID for you to map

z**********i
发帖数: 12276
7
是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
就想每天都要做饭一样. :-) 但做饭没人给我发工资.
要不,想着STAY HOME算拉.

【在 v******i 的大作中提到】
: 很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output
: 出来没match上的那部分 再肉眼对一遍

g*********r
发帖数: 2847
8

haven't seen any fancy method.
what I might do is developing a map in Excel (search function may help) if
the dataset is not huge

【在 z**********i 的大作中提到】
: ID is not filled in, so want to match them by name...
z**********i
发帖数: 12276
9
Some fuzzy match papers I ever read.
For the ID match cases, I would confirm them by name or address using fuzzy
match.
For the missing ID cases, it is hard to match them. Actually, I got half of
them, but I may still missed some.

【在 g*********r 的大作中提到】
:
: haven't seen any fancy method.
: what I might do is developing a map in Excel (search function may help) if
: the dataset is not huge

v******i
发帖数: 1246
10
恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

【在 z**********i 的大作中提到】
: 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
: 就想每天都要做饭一样. :-) 但做饭没人给我发工资.
: 要不,想着STAY HOME算拉.

相关主题
如何比较两个proc contents的结果?sas 简单问题
two SAS macro questionshow to write a series of variables Q29B4B-Q29B30B in array ?
how to get variable names and # of variable names in sas datasetsas新手求救,合并databases
进入Statistics版参与讨论
z**********i
发帖数: 12276
11
有CODE能SHARE吗?
多谢!

【在 v******i 的大作中提到】
: 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
g*********r
发帖数: 2847
12

never done such.
it is not effecient for clients to pay us for the grunt work

【在 v******i 的大作中提到】
: 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
v******i
发帖数: 1246
13
如果你的data要dedup by household 的话 一般都是要address clean的

【在 g*********r 的大作中提到】
:
: never done such.
: it is not effecient for clients to pay us for the grunt work

z**********i
发帖数: 12276
14
我的是医院的,没有HOUSEHOLD那么复杂,量大. :-)

【在 v******i 的大作中提到】
: 如果你的data要dedup by household 的话 一般都是要address clean的
z**********i
发帖数: 12276
15
看来,碰到懂行的了...

【在 v******i 的大作中提到】
: 如果你的data要dedup by household 的话 一般都是要address clean的
g*********r
发帖数: 2847
16

luckily we have the IDs in the data

【在 v******i 的大作中提到】
: 如果你的data要dedup by household 的话 一般都是要address clean的
z**********i
发帖数: 12276
17
2个DATASETS, 都有一个HOSPITAL NAME的VARIABLE,但NAME的信息里会有些常见的情况,
比如,SAINT写成ST 或ST. 还有一些稀奇古怪的ENTRY.
这样一来,他们就没法MATCH. 大家处理过这样的数据,通过它们的名字来MATCH他们吗?
多谢!!
g*****d
发帖数: 526
18
dataflux....
其实跟自己写code差不多。
z**********i
发帖数: 12276
19
谢谢!
我主要参照了这个.
www.nesug.org/proceedings/nesug08/cc/cc07.pdf

【在 g*****d 的大作中提到】
: dataflux....
: 其实跟自己写code差不多。

v******i
发帖数: 1246
20
很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output
出来没match上的那部分 再肉眼对一遍
相关主题
one quick question about concatenating data in SAS从大data 产生多个小data 的方法
请教关于SAS fuzzy match merge的问题发包子求大牛解SAS问题,急
sas programming questionSAS Question
进入Statistics版参与讨论
g*********r
发帖数: 2847
21
are they claims data?
if so, there might be provider ID for you to map
z**********i
发帖数: 12276
22
ID is not filled in, so want to match them by name...

【在 g*********r 的大作中提到】
: are they claims data?
: if so, there might be provider ID for you to map

z**********i
发帖数: 12276
23
是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
就想每天都要做饭一样. :-) 但做饭没人给我发工资.
要不,想着STAY HOME算拉.

【在 v******i 的大作中提到】
: 很麻烦 必须把两套名字用同样的方法clean一遍 这样还是会有很多对不上的 output
: 出来没match上的那部分 再肉眼对一遍

g*********r
发帖数: 2847
24

haven't seen any fancy method.
what I might do is developing a map in Excel (search function may help) if
the dataset is not huge

【在 z**********i 的大作中提到】
: ID is not filled in, so want to match them by name...
z**********i
发帖数: 12276
25
Some fuzzy match papers I ever read.
For the ID match cases, I would confirm them by name or address using fuzzy
match.
For the missing ID cases, it is hard to match them. Actually, I got half of
them, but I may still missed some.

【在 g*********r 的大作中提到】
:
: haven't seen any fancy method.
: what I might do is developing a map in Excel (search function may help) if
: the dataset is not huge

v******i
发帖数: 1246
26
恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死

【在 z**********i 的大作中提到】
: 是,很多时候就是简单的事,要重复很多遍,用很多的时间去做.
: 就想每天都要做饭一样. :-) 但做饭没人给我发工资.
: 要不,想着STAY HOME算拉.

z**********i
发帖数: 12276
27
有CODE能SHARE吗?
多谢!

【在 v******i 的大作中提到】
: 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
g*********r
发帖数: 2847
28

never done such.
it is not effecient for clients to pay us for the grunt work

【在 v******i 的大作中提到】
: 恩 比你这个复杂很多倍的address match我都做过。。。。clean起来简直想死
v******i
发帖数: 1246
29
如果你的data要dedup by household 的话 一般都是要address clean的

【在 g*********r 的大作中提到】
:
: never done such.
: it is not effecient for clients to pay us for the grunt work

z**********i
发帖数: 12276
30
我的是医院的,没有HOUSEHOLD那么复杂,量大. :-)

【在 v******i 的大作中提到】
: 如果你的data要dedup by household 的话 一般都是要address clean的
相关主题
Dataset merge的一个问题SAS: fuzzy match
请教如何写这个sas代码?SAS DATA 求助
[Data Science Project Case] Fuzzy matching on names (转载)genmod的问题
进入Statistics版参与讨论
z**********i
发帖数: 12276
31
看来,碰到懂行的了...

【在 v******i 的大作中提到】
: 如果你的data要dedup by household 的话 一般都是要address clean的
g*********r
发帖数: 2847
32

luckily we have the IDs in the data

【在 v******i 的大作中提到】
: 如果你的data要dedup by household 的话 一般都是要address clean的
S******y
发帖数: 1123
33
use regular expression
1 (共1页)
进入Statistics版参与讨论
相关主题
发包子求大牛解SAS问题,急question about using sas macro variable and do loop
SAS Question如何比较两个proc contents的结果?
Dataset merge的一个问题two SAS macro questions
请教如何写这个sas代码?how to get variable names and # of variable names in sas dataset
[Data Science Project Case] Fuzzy matching on names (转载)sas 简单问题
SAS: fuzzy matchhow to write a series of variables Q29B4B-Q29B30B in array ?
SAS DATA 求助sas新手求救,合并databases
genmod的问题one quick question about concatenating data in SAS
相关话题的讨论汇总
话题: match话题: name话题: hospital话题: them话题: data