由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 如何证明数据是伪造的?
相关主题
问一个ARIMA model 的问题。复杂分类变量recoding?
统计大牛看一看问一个control chart的问题
关于recode data的问题,多谢。包子问题。。关于time series data analysis的
请问sas如何做两万次ttest不崩溃?新人报道,兼问SAS data set的问题
Logistic regression: binary response: rare eventSAS里关于recode一问
[合集] 笨菜鸟跪请SAS编程难题 急等SAS base question
也弱问一个SAS里面genotype/SNP variable recoding的问题问一个 time series 问题
SAS 问题A VERY Tricky SAS question: Help Needed with Baozi
相关话题的讨论汇总
话题: event话题: delay话题: time话题: acf话题: pacf
进入Statistics版参与讨论
1 (共1页)
c*********8
发帖数: 608
1
现在在分析一个系统的延迟时间,把delay时间画了个histogram,发现出来的curve异常
smooth. 大家有什么思路可以证明这个数据是伪造出来的。
s*r
发帖数: 2757
2
多了自然smoothe
T*******I
发帖数: 5138
3
很难想象一个现实系统中没有随机误差的变异性表达;反之如果没有这种表达,就可以
被认为是人们依据理想状态而构造的结果。
一个数学学得很好的人,脑子通常会进入这般状态。他们视变异性表达为“Noisy”,
必须被消除。

【在 c*********8 的大作中提到】
: 现在在分析一个系统的延迟时间,把delay时间画了个histogram,发现出来的curve异常
: smooth. 大家有什么思路可以证明这个数据是伪造出来的。

c*********8
发帖数: 608
4
这位大牛,能不能具体讲下思路。
现在的感觉是这个curve too good to be true. 除了在60秒左右那个bar比较突出,其
他都是依次递增或递减。
sample虽然不小,但总觉得不会这么smooth.
M*P
发帖数: 6456
5
给你头看这个hist就可以了

【在 c*********8 的大作中提到】
: 现在在分析一个系统的延迟时间,把delay时间画了个histogram,发现出来的curve异常
: smooth. 大家有什么思路可以证明这个数据是伪造出来的。

c*********8
发帖数: 608
6
那你也觉得可能有问题?但问题是写报告,要有分析加证据。
g********r
发帖数: 8017
7
也可能这个机器就是噪音极低呢。要是能估计噪音水平,比如从另一组实验,还有可能
继续。
m****e
发帖数: 255
8
Sorry no Chinese input
you need additional variables to prove/disprove the data is faked.
For example, if you have the time stamp of each event, you can do time
series analysis. PACF and ACF graphs will also help.
The problem is very hard if there is no protocol for analyzing the data.
z****k
发帖数: 1057
9
这个很困难吧
我有个学生帮我发问卷收集数据
得到的数据跟别的学生收集到的相比,p < 0.000001
导师还是说算了不要搞她了,因为还是没有抓现行之类的确实证据

【在 c*********8 的大作中提到】
: 现在在分析一个系统的延迟时间,把delay时间画了个histogram,发现出来的curve异常
: smooth. 大家有什么思路可以证明这个数据是伪造出来的。

c*********8
发帖数: 608
10
系统是这样工作的,customer发了一个请求,系统返还一个确认message. 这是第一个
event. 第二个就是customer回复确认message完成注册。
1)前后event 理论上都是人产生的,系统就记录了时间。现在有种推测是server有什
么优化程序来平衡系统负荷。
2)我有每个event 的timestamp, 用ACF/PACF看些什么呢。一共两个event,怎么构建序
列?以第一个event发生时间为x,对应的delay时间为y?
m****e
发帖数: 255
11
Recode the events as
X_1 is the time of request confirmation. x_1_i's are the observations of
Event (type) 1.
X_2 for time of registration confirmation.x_2_i's are the observations of
Event (type) 2.
You indeed have multiple events indexed by i.
Let Y be the length of delay, ie, Y=X_2-X_1.
y_i=delay of event i.
The index i should be the order of the events.
First plot Y again index i and see if there is some trend.
If the observations are done manually, you may expect some seasonal pattern
or non-seasonal patterns because the response time is affected by the
availability of the human operator. Do ACF/PACF to find that out.
Since your problem is ill-defined, any proposed methods may fail or produce
unexpected results. Careful with your inference.
c*********8
发帖数: 608
12
hi Marole, 多谢你回复。我会尝试下,看下结果。
有个问题是这些数据显示都是在去年同一天更新的(last modified timestamp). 如果
第二个event都是在那天一次性加入(用某个distribution得到delay time,然后加上第
一个event timestamp得到第二个event timestamp).这样是不是就看不出你设想的
seasonal pattern?
我现在从两个方面入手:
1)第二个event是系统确认customer回复正确密码的event. 我在看看有没有customer
输错密码的event,如果一个都没有,就很奇怪。
2)第二个就是看下delay时间之间有没有correlation. 假设customer 白天回复速度较
快,晚上比较慢,这样就有个pattern. 如果第二个event是伪造的,那么delay time之
间没有任何correlation.
1 (共1页)
进入Statistics版参与讨论
相关主题
A VERY Tricky SAS question: Help Needed with BaoziLogistic regression: binary response: rare event
[合集] Two interview questions[合集] 笨菜鸟跪请SAS编程难题 急等
[合集] R问题 求助... 谢谢也弱问一个SAS里面genotype/SNP variable recoding的问题
如何把一个variable中missing 的observation 付上非missing observation 的valueSAS 问题
问一个ARIMA model 的问题。复杂分类变量recoding?
统计大牛看一看问一个control chart的问题
关于recode data的问题,多谢。包子问题。。关于time series data analysis的
请问sas如何做两万次ttest不崩溃?新人报道,兼问SAS data set的问题
相关话题的讨论汇总
话题: event话题: delay话题: time话题: acf话题: pacf