由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 一个大数据 处理问题
相关主题
一道graph的问题求教!(from MIT Intro to Algo)请教directed acyclic graph
问graph问题DAG question
怎样随机建立线性graph的adjacency matrix?图的degree sequence的一个问题
请问一个图的分解问题请推荐几个大的 graph dataset
A probability probelm about graph (network)Question about Bipartite Graphs
Facebook Graph API Explorer为什么不能看到用户public 信息A Question About Markov Chain/Junction Tree
TSP for a special graphgraph question: what is "genus" ? (转载)
data structure for set of path in a graph (转载)算法问题,找出现频率最高的元素
相关话题的讨论汇总
话题: txt话题: 认识话题: undirected话题: 然后话题: directed
进入CS版参与讨论
1 (共1页)
f*******4
发帖数: 64
1
最近在做一个 social network data analysis 的项目
我自己想的算法效率很低,跪求大神指教。。
一个超大的txt文件(4G吧)(ID有10^6个,edge有10^8个)
全部是如下格式:
1 5
1 6
2 7
1 7
都是无序的。。这些ID
数字代表ID,我要做的是找出一个概率P(分数): (A->C)/(A->B , B->C),也就是
传递性,找到这个txt里 三角形(传递关系)的概率
比如,如果这个txt里只有1、5、8、9、2、6.
1 5
5 8
5 9
1 8
2 6
1认识5,5认识8,1认识8,;1认识5,5认识9,但1不认识9。 这个P就等于0.5。。(A->C)
/(A->B , B->C)(因为2、6无法和另一个ID产生关系,因此不要)我的target就是要求
出这个P。。
因为这些ID肯定都是long型,然后edge估计有个N*10^8,我不确定是否可以用内存(我
们服务器内存15Gb)。
目前,我是这么做的:把这个大txt,按ID的除余,分成0-19999两万个hash txt,然后
操作,这种做I/O明显是很大的,然后处理,又因为无序性,我每次很naive的线性找,
,然后就越来越慢了。。
问问大家,有没有好办法解决。
还有个问题就是说,有的数据集是undirected,有的是directed。按照要求,我得把所
有的directed转换成undirected,所以比较麻烦。
b********e
发帖数: 58
2
import the data into a graph database such as Neo4j, rest is just call their APIs.
l**a
发帖数: 423
3
你能具体点要什么样的结果么?每个node的指向其他node的概率?
传递链长的话,是不是会有1/3,1/4,1/5,,,, ?
你得node才1million,根据你要的结果,使用正确的graph data structure,内存应该
是够用的。
另外这个题看起来不像是一个project,更象是一个challenge。
1 (共1页)
进入CS版参与讨论
相关主题
算法问题,找出现频率最高的元素A probability probelm about graph (network)
问个算法问题Facebook Graph API Explorer为什么不能看到用户public 信息
求助一个函数模型,急,在线等! (转载)TSP for a special graph
线性不等式组.data structure for set of path in a graph (转载)
一道graph的问题求教!(from MIT Intro to Algo)请教directed acyclic graph
问graph问题DAG question
怎样随机建立线性graph的adjacency matrix?图的degree sequence的一个问题
请问一个图的分解问题请推荐几个大的 graph dataset
相关话题的讨论汇总
话题: txt话题: 认识话题: undirected话题: 然后话题: directed