由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - text mining中的relation extraction
相关主题
求职求内推大数据时代和金融--- 海量数据,"大数据"和高频数据,从"Big Data"谈开去之二
NLP Concept Mining"大数据"vs. 海量数据
我想建立一个自动选股票系统机器学习日报
假如想实现 entity recognition, relation extraction这些功能的话,除了GATE, 还有 哪些其它的open source library。big data storage and query 的云解决方案求建议
职业发展请教大家如何读的快学的多?信息爆炸的时代需用结构化读书法
用R做review 的summaryDS需要会的手艺 真不少
搞了个实时twitter文本分析来研究闯王和吸奶的行情分析 (转载)机器学习需要自己搞算法吗
我不会编程公司招DATA SCIENTIST
相关话题的讨论汇总
话题: extraction话题: relation话题: mining话题: accident
进入DataSciences版参与讨论
1 (共1页)
l******n
发帖数: 9344
1
有event的数据,包含不同risk level的accident,发生的时间,地点,描述,涉及的
产品/device。现在我面临的问题时,我怀疑很多先发生的event引起啦后面的accident
,risk level也是从低到高。我可以从事件的描述中提取出一些关键词来做association
,但是这样并不能给我一个发生时间的关系。我想找的是一种cause-effect这样的关系。
有人遇到过这样的问题嘛?
c****t
发帖数: 19049
2
没看明白
l******n
发帖数: 9344
3
就是找因果关系
比如数据中有10个人发烧,5天内8个人中的10个有肺炎,那么这个发烧就是因,肺炎就
是果

【在 c****t 的大作中提到】
: 没看明白
g*****o
发帖数: 812
4
实际上发烧和肺炎都是症状吧.......

【在 l******n 的大作中提到】
: 就是找因果关系
: 比如数据中有10个人发烧,5天内8个人中的10个有肺炎,那么这个发烧就是因,肺炎就
: 是果

l******n
发帖数: 9344
5
时间上有先后

【在 g*****o 的大作中提到】
: 实际上发烧和肺炎都是症状吧.......
c****t
发帖数: 19049
6
不知道你具体想做什么,但是你这个例子发烧和肺炎不能说有因果关系,只能说发烧和
肺炎相关。
要论证因果关系你还需要:
10个人有肺炎,这些人都发烧
10个人不发烧,这些人都没有肺炎
如果不要很严格,可以降低threshold比如你用8。你只观察发烧的人是sample bias
如果你只是要找相关,可以从association rules开始。就是所谓的shopping basket
problem(shoppers buy one thing usually buy another thing)

【在 l******n 的大作中提到】
: 就是找因果关系
: 比如数据中有10个人发烧,5天内8个人中的10个有肺炎,那么这个发烧就是因,肺炎就
: 是果

c****t
发帖数: 19049
7
O你还要时间关系。。。还是不知道你要什么。你貌似有时间数据,你的难点是什么?
l******n
发帖数: 9344
8
association rule不够
我的数据是比较简单.比如一个矿山,有很多的安全事故,有不同等级,有详细的描述
,比如那个旷道的某个device除了什么故障或者除了什么事故。这些安全事故有些是
anomaly,有些是incident,有些是disaster.
现在你要从历史数据中找到某种规律,比如一个anomaly oil leak会导致一周后火灾
incident或者伤亡事故 disaster。

【在 c****t 的大作中提到】
: O你还要时间关系。。。还是不知道你要什么。你貌似有时间数据,你的难点是什么?
l*******m
发帖数: 1096
9
有些papers
http://www.causality.inf.ethz.ch/cause-effect.php?page=help

【在 l******n 的大作中提到】
: 就是找因果关系
: 比如数据中有10个人发烧,5天内8个人中的10个有肺炎,那么这个发烧就是因,肺炎就
: 是果

A*******s
发帖数: 3942
10
最简单的--直接看lag variable是不是显著

accident
association
系。

【在 l******n 的大作中提到】
: 有event的数据,包含不同risk level的accident,发生的时间,地点,描述,涉及的
: 产品/device。现在我面临的问题时,我怀疑很多先发生的event引起啦后面的accident
: ,risk level也是从低到高。我可以从事件的描述中提取出一些关键词来做association
: ,但是这样并不能给我一个发生时间的关系。我想找的是一种cause-effect这样的关系。
: 有人遇到过这样的问题嘛?

相关主题
用R做review 的summary大数据时代和金融--- 海量数据,"大数据"和高频数据,从"Big Data"谈开去之二
搞了个实时twitter文本分析来研究闯王和吸奶的行情分析 (转载)"大数据"vs. 海量数据
我不会编程机器学习日报
进入DataSciences版参与讨论
t****a
发帖数: 1212
11
没有实际经验,胡说两句,不一定对,请指正
1. 即使有时间上的先后关系,加上association / correlation,也不能说明有因果关
系。简单的例子:公鸡每天在日出前打鸣,同时具备时间上先后和association,不能
据此说公鸡打鸣是日出的原因。这点在休谟的《人类理解论》里有论述。
2. 通常只有用control的random experiment才能证明causal-effect。然而你的数据显
然不符合这个条件。http://en.wikipedia.org/wiki/Judea_Pearl 提出了某种方法,论证在符合某种特定的条件的时候可以从数据中推理出因果(部分因为这方面的工作他得了2011年图灵奖),或许有帮助?

accident
association
系。

【在 l******n 的大作中提到】
: 有event的数据,包含不同risk level的accident,发生的时间,地点,描述,涉及的
: 产品/device。现在我面临的问题时,我怀疑很多先发生的event引起啦后面的accident
: ,risk level也是从低到高。我可以从事件的描述中提取出一些关键词来做association
: ,但是这样并不能给我一个发生时间的关系。我想找的是一种cause-effect这样的关系。
: 有人遇到过这样的问题嘛?

g*****o
发帖数: 812
12
哎, 我以为"相关性不代表因果性"是普世价值, 想不到在ds版居然都有人纠结这个..
是因为为被经济学洗脑了么.

【在 t****a 的大作中提到】
: 没有实际经验,胡说两句,不一定对,请指正
: 1. 即使有时间上的先后关系,加上association / correlation,也不能说明有因果关
: 系。简单的例子:公鸡每天在日出前打鸣,同时具备时间上先后和association,不能
: 据此说公鸡打鸣是日出的原因。这点在休谟的《人类理解论》里有论述。
: 2. 通常只有用control的random experiment才能证明causal-effect。然而你的数据显
: 然不符合这个条件。http://en.wikipedia.org/wiki/Judea_Pearl 提出了某种方法,论证在符合某种特定的条件的时候可以从数据中推理出因果(部分因为这方面的工作他得了2011年图灵奖),或许有帮助?
:
: accident
: association
: 系。

c****t
发帖数: 19049
13
这回看明白了。试过hidden markov吗?

【在 l******n 的大作中提到】
: association rule不够
: 我的数据是比较简单.比如一个矿山,有很多的安全事故,有不同等级,有详细的描述
: ,比如那个旷道的某个device除了什么故障或者除了什么事故。这些安全事故有些是
: anomaly,有些是incident,有些是disaster.
: 现在你要从历史数据中找到某种规律,比如一个anomaly oil leak会导致一周后火灾
: incident或者伤亡事故 disaster。

t****a
发帖数: 1212
14
呵呵,我是被洗了脑,看不出相关得到因果的逻辑,连这样做对的概率也拿不准;你能
展开说说么,到底怎么样才能发掘因果性?怎么样能说服客户这个因果是对的?

【在 g*****o 的大作中提到】
: 哎, 我以为"相关性不代表因果性"是普世价值, 想不到在ds版居然都有人纠结这个..
: 是因为为被经济学洗脑了么.

T*****u
发帖数: 7103
15
trending and pat?
g*****o
发帖数: 812
16
客户啊, 那就无所谓啦, 反正对非统计专业的人来说, 统计都只是make sense而已.

【在 t****a 的大作中提到】
: 呵呵,我是被洗了脑,看不出相关得到因果的逻辑,连这样做对的概率也拿不准;你能
: 展开说说么,到底怎么样才能发掘因果性?怎么样能说服客户这个因果是对的?

t****a
发帖数: 1212
17
你的意思是编故事来解释了么... 这遇到懂行的可就穿帮了。

【在 g*****o 的大作中提到】
: 客户啊, 那就无所谓啦, 反正对非统计专业的人来说, 统计都只是make sense而已.
g*****o
发帖数: 812
18
那你就拍桌子: 你TM都懂统计还找我做什么

【在 t****a 的大作中提到】
: 你的意思是编故事来解释了么... 这遇到懂行的可就穿帮了。
l******0
发帖数: 244
19
数据是结构化,还是非结构化的数据?

accident
association
系。

【在 l******n 的大作中提到】
: 有event的数据,包含不同risk level的accident,发生的时间,地点,描述,涉及的
: 产品/device。现在我面临的问题时,我怀疑很多先发生的event引起啦后面的accident
: ,risk level也是从低到高。我可以从事件的描述中提取出一些关键词来做association
: ,但是这样并不能给我一个发生时间的关系。我想找的是一种cause-effect这样的关系。
: 有人遇到过这样的问题嘛?

l******n
发帖数: 9344
20
都有,比如时间地点,涉及的device,最重要的信息是在description里边,就是当事
人的文本描述

【在 l******0 的大作中提到】
: 数据是结构化,还是非结构化的数据?
:
: accident
: association
: 系。

相关主题
big data storage and query 的云解决方案求建议机器学习需要自己搞算法吗
如何读的快学的多?信息爆炸的时代需用结构化读书法公司招DATA SCIENTIST
DS需要会的手艺 真不少请推荐一个NLP的data set (转载)
进入DataSciences版参与讨论
l******n
发帖数: 9344
21
我们是从统计的角度来发掘数据包含的信息,至于这个信息的对错或者说正确性是有
SME来决定的。很多事件之间的内在联系不是SME的经验和直觉能够发现的,即使SME知
道的联系,也是我们来提供hard evidence,才能真正被认为是事实.这才是DS的价值。

【在 g*****o 的大作中提到】
: 客户啊, 那就无所谓啦, 反正对非统计专业的人来说, 统计都只是make sense而已.
l******0
发帖数: 244
22
有些 metadata可能是结构化的,而 description 是非结构化的。是不是自然语言处理
可以有所帮助?
我以前做过点从 news 中提取发生事件的时间关系,非因果关系。但这种关系提取方法
有些类似,效果都不太好,属于很 advanced 的领域。
NLP 里有一个信息提取的 track, 专门比较 relation extraction 的算法和系统,年
度会议。现在忘了链接。

【在 l******n 的大作中提到】
: 都有,比如时间地点,涉及的device,最重要的信息是在description里边,就是当事
: 人的文本描述

l******n
发帖数: 9344
23
肯定要NLP来处理,我没有找到相关的文章,也不知道用什么算法有用。
BTW,你是做trading相关的news analysis?

【在 l******0 的大作中提到】
: 有些 metadata可能是结构化的,而 description 是非结构化的。是不是自然语言处理
: 可以有所帮助?
: 我以前做过点从 news 中提取发生事件的时间关系,非因果关系。但这种关系提取方法
: 有些类似,效果都不太好,属于很 advanced 的领域。
: NLP 里有一个信息提取的 track, 专门比较 relation extraction 的算法和系统,年
: 度会议。现在忘了链接。

g*****o
发帖数: 812
24
做得比较多的是舆情调研吧, 很多是语言色彩分析, 其实拿个积极消极的词表去匹配,
然后看频率和距离
但是更详细的信息, 还是挺受限的

【在 l******n 的大作中提到】
: 肯定要NLP来处理,我没有找到相关的文章,也不知道用什么算法有用。
: BTW,你是做trading相关的news analysis?

l******n
发帖数: 9344
25
sentimental analysis基本就是看词频,更高级的一些就要考虑词的order

,

【在 g*****o 的大作中提到】
: 做得比较多的是舆情调研吧, 很多是语言色彩分析, 其实拿个积极消极的词表去匹配,
: 然后看频率和距离
: 但是更详细的信息, 还是挺受限的

g*****o
发帖数: 812
26
所以句法分析这种东西到目前都还没有实际运用么?

【在 l******n 的大作中提到】
: sentimental analysis基本就是看词频,更高级的一些就要考虑词的order
:
: ,

l******n
发帖数: 9344
27
sentimental analysis不需要这么复杂吧

【在 g*****o 的大作中提到】
: 所以句法分析这种东西到目前都还没有实际运用么?
l******0
发帖数: 244
28
没有,是政府项目,分析,跟踪恐怖分子的活动,所以对时间,事件的分析比较重要。
各种消息,情报来源的信息量太大,需要从中找出一些有用的东西。美国反恐,花了不
少的钱,包括科研投入。

【在 l******n 的大作中提到】
: 肯定要NLP来处理,我没有找到相关的文章,也不知道用什么算法有用。
: BTW,你是做trading相关的news analysis?

g*****o
发帖数: 812
29
美国干脆外包到天朝算了, 人肉分布式处理, 现在已经有人肉分布式验证码识别器了,
准确率甩机器识别几条街

【在 l******0 的大作中提到】
: 没有,是政府项目,分析,跟踪恐怖分子的活动,所以对时间,事件的分析比较重要。
: 各种消息,情报来源的信息量太大,需要从中找出一些有用的东西。美国反恐,花了不
: 少的钱,包括科研投入。

g*****o
发帖数: 812
30
我是好奇, 现在句法标注好像已经挺成熟的了, 但是如何处理这些标注, 貌似还没有太
大进展?

【在 l******n 的大作中提到】
: sentimental analysis不需要这么复杂吧
相关主题
克劳迪亚 管理员 培训材料NLP Concept Mining
说说最近的一次面试,兼告诫国人我想建立一个自动选股票系统
求职求内推假如想实现 entity recognition, relation extraction这些功能的话,除了GATE, 还有 哪些其它的open source library。
进入DataSciences版参与讨论
l******n
发帖数: 9344
31
这个是机器翻译的基础,应该有比较成熟的算法了

【在 g*****o 的大作中提到】
: 我是好奇, 现在句法标注好像已经挺成熟的了, 但是如何处理这些标注, 貌似还没有太
: 大进展?

g*****o
发帖数: 812
32
总觉得要是用在信息提取和分析上会不会提高现在的精确度

【在 l******n 的大作中提到】
: 这个是机器翻译的基础,应该有比较成熟的算法了
l******0
发帖数: 244
33
以前的机器翻译是这样做的,分析语法和语义,但现在主流的都是直接使用统计的方法
,使用大量的翻译例句进行学习,并没有对语言本身进行深层分析,因为那样很困难。

【在 l******n 的大作中提到】
: 这个是机器翻译的基础,应该有比较成熟的算法了
g*****o
发帖数: 812
34
所以现在机器翻译是不管句法标志的么? 我还以为至少会把同一个词的不同句法标志,
当做几个词来看待.

【在 l******0 的大作中提到】
: 以前的机器翻译是这样做的,分析语法和语义,但现在主流的都是直接使用统计的方法
: ,使用大量的翻译例句进行学习,并没有对语言本身进行深层分析,因为那样很困难。

l******n
发帖数: 9344
35
statistical mt是这样,一般也要结合一些语法规则,基本算是hyprid

【在 l******0 的大作中提到】
: 以前的机器翻译是这样做的,分析语法和语义,但现在主流的都是直接使用统计的方法
: ,使用大量的翻译例句进行学习,并没有对语言本身进行深层分析,因为那样很困难。

c***z
发帖数: 6348
36
Don't know if it is similar to your case, but we list up all activities of
same person in some time period before check out, and then extract features
such as total views, order of view, product rating, etc to run regression.
BTW why cause-effect is important?

accident
association
系。

【在 l******n 的大作中提到】
: 有event的数据,包含不同risk level的accident,发生的时间,地点,描述,涉及的
: 产品/device。现在我面临的问题时,我怀疑很多先发生的event引起啦后面的accident
: ,risk level也是从低到高。我可以从事件的描述中提取出一些关键词来做association
: ,但是这样并不能给我一个发生时间的关系。我想找的是一种cause-effect这样的关系。
: 有人遇到过这样的问题嘛?

c***z
发帖数: 6348
37
Also, how about survival analysis?
l******n
发帖数: 9344
38
Only if you know the causal relationship, you can do prevention which could
save millions of dollars.

features

【在 c***z 的大作中提到】
: Don't know if it is similar to your case, but we list up all activities of
: same person in some time period before check out, and then extract features
: such as total views, order of view, product rating, etc to run regression.
: BTW why cause-effect is important?
:
: accident
: association
: 系。

h********3
发帖数: 2075
39
看看Natural Language Process里面Information Extraction。这个是很古老的topic
,里面有很多方法和工具。这个圈子的研究比machine learning,data mining更古老
。常见的工具就是Apache OpenNLP,NLTK啥的。连训练好的一些model都可以在网站上
下载,只不过比较差。
l*******s
发帖数: 1258
40
这可以分为两个task:
event detection和cause-effect分析。后者没搞过,不说了。
event detection这几年又热起来了,其实算是比较早的一种NLP task。
首先你得定义啥是event,里面包含有啥要素,比如人物时间地点动词等。每一个子类
都是一个独立的task,比如temporal info extraction, spacial info extraction,
relation extraction, NER等。每一个都够做半天的。
看看这方面的shared task,会有些感觉。
1 (共1页)
进入DataSciences版参与讨论
相关主题
公司招DATA SCIENTIST职业发展请教大家
请推荐一个NLP的data set (转载)用R做review 的summary
克劳迪亚 管理员 培训材料搞了个实时twitter文本分析来研究闯王和吸奶的行情分析 (转载)
说说最近的一次面试,兼告诫国人我不会编程
求职求内推大数据时代和金融--- 海量数据,"大数据"和高频数据,从"Big Data"谈开去之二
NLP Concept Mining"大数据"vs. 海量数据
我想建立一个自动选股票系统机器学习日报
假如想实现 entity recognition, relation extraction这些功能的话,除了GATE, 还有 哪些其它的open source library。big data storage and query 的云解决方案求建议
相关话题的讨论汇总
话题: extraction话题: relation话题: mining话题: accident