c********r 发帖数: 241 | 1 对C++实在所知有限,无奈老板一定要用它,请给点Clue. 我手头上有三组数据,每组
的格式都是下面
这样的:
ID R1 R2 R3
1001 17.5 21.0 29.9
1003 16.5 22.0 28.5
现在想把三组数据中相同ID的数据全找出来拼在一起,对应的结果像下面这样
ID R1 R2 R3 R4 R5 R6 R7 R8 R9
我Google了一下,不知道 set_intersection 管不管用,头大啊。 |
|
t****a 发帖数: 1212 | 2 你的这个问题我不觉得有什么tool直接能完成。要写一些scripts
首先得把数据结构整一致了,如果不完全一致,那么要明确分成哪几种格式
让tester把他们的数据共享给你的程序,比如用共享文件夹
你要有一个程序定时的去检查这些文件夹,看是否有新数据,发现有新数据就需要上传
到数据库 |
|
|
l*l 发帖数: 68 | 4 【 以下文字转载自 Hardware 讨论区 】
发信人: lhl (五级六兽), 信区: Hardware
标 题: 最近倒霉,硬盘接二连三的坏。求软件恢复dynamic disk 数据
发信站: BBS 未名空间站 (Tue Aug 3 02:50:58 2010, 美东)
之前电脑上挂了三个硬盘,一个操作系统盘,两个数据盘,前个礼拜系统盘坏了,换掉
,重新装了操作
系统,却发现原来两个数据盘中那个最大的(1TB)原来格式化成动态的,系统重装后竟
然认不出来,
BIOS显示1TB,可是DISK MANAGER里显示硬盘是动态不可用。也没有盘符。求各位高手
指点什么软件
能可靠的把数据恢复过来。。。多谢! |
|
p*l 发帖数: 1359 | 5 这种事用Regular expression最好。我用MatLab批处理数据,先搜索出当前目录下所有
文件名,然后用regular expression按关键字筛选,选中的文件批量处理。
MatLab是基本什么数据都能做。只两点不好:一是用它写GUI实在坑人了点。二是画图
功能很复杂,很多东西要么菜单藏的很深,要么要靠code实现,不容易掌握。但是好处
是,一旦你写好了code,可以把无数套数据按同一格式画出来。加上它本身的数据处理
功能,在处理图像数据和画图上,MatLab的自由度非常非常大。开玩笑说,如果拿
MatLab改图的话,我绝对能改得天衣无缝。 |
|
发帖数: 1 | 6 既然都找公司了,分析的工作交给公司好了。作为客户,我觉得有两点,一是理解数据
格式,比如BAM、BED;二是学会用IGV,可以用来读取并可视化BAM、BED、TDF、
Bedgraph等多种数据,也可以加载一些公共数据(如ENCODE),这样你就可以结合公司
的报告对这些报告产生的数据基础有个直观的认识。 |
|
p*****y 发帖数: 1386 | 7 【 以下文字转载自 Computation 讨论区 】
发信人: pppiggy (PP小白猪), 信区: Computation
标 题: 问个matlab和IDL数据兼容的问题,包子酬谢!
发信站: BBS 未名空间站 (Thu Nov 29 21:18:31 2007)
就是怎么能在matlab里load在IDL里保存下来的数据文件啊?IDL里面的数据文件只能存
成.sav的格式吗? 谢谢!!! |
|
a*******r 发帖数: 7558 | 8 地球学里的卫星数据一般由level0, 1A, 1B, 到level2以及更高的
HDF文件,那么在planetary remote sensing里由飞船发回来
的数据格式,是否有类似对应结构?
另外地球观察MODIS等数据都是公开可供下载的,那么行星
遥感界的数据是否也都对外公开? |
|
c***c 发帖数: 67 | 9 跑题的瞎扯两句,呵呵。有同样不靠谱想法的人可以展开讨论一下。
如果有原图的eps文件的话,(就象arXiv上的文章),应该自己写个小程序就能搞定的
吧。毕竟数据点都在里面了,只是坐标变换了一下而已。pdf的图片文件,原则上可能
复杂些,16进制pdf结构,去掉文件头尾后,剩下的部分估计就是加密的数据了。解
密这部分数据估计也是可行的。最简单的方法就是自己做个简单的曲线图,然后分析相
应的pdf格式。原则上来讲,那些插件或者取点程序背后做的事情可能就是这些。 |
|
f***1 发帖数: 168 | 10 在完全不认识一个人的情况下给这个人推荐信确实是一件难以理解的事情。但是申请
NIW 需要好几封Independent Recommendation Letter。 我曾通过前导师的导师,以及
现老板的同学一共要到两封这样的信,但是申请材料递上去后,被打回来要求补充多几
封这样的independent letter。目前想通过以前一起写过文章的人要,但还没有得到答
复。时间有限,于是想到统计版。
我是在Texas这边一所医学院做统计,基本上做生统,有时候也会接受一些当地企业做
产品测试的数据。我是应用统计硕士毕业,工作时间快3年了,近期才打算留下所以才
开始申请绿卡。日常负责的事情从数据录入、数据情理、分析、出报表到后期的文章改
写修订,都做。R、SAS和Matlab是我平时主要使用的编程软件。
在软件使用方面,我是SAS和R同时使用,因为上头的两个老板一个用R一个用SAS。目前
在负责修订部门内的coding standard,因为部门在扩大,有具体的coding standard方
便将来的项目和程序在部门内同事之间相互交接。编写过一些部门内正在共同使用的R
function pac... 阅读全帖 |
|
n******n 发帖数: 12088 | 11 【 以下文字转载自 Investment 讨论区 】
发信人: newgumin (新股民), 信区: Investment
标 题: 哪里能找到人民币兑美元每日汇率的数据? (转载)
发信站: BBS 未名空间站 (Thu Jul 16 21:44:02 2009, 美东)
发信人: newgumin (新股民), 信区: Stock
标 题: 哪里能找到人民币兑美元每日汇率的数据?
发信站: BBS 未名空间站 (Thu Jul 16 21:43:48 2009, 美东)
要能下载到xls或者csv格式的。
包子酬谢。 |
|
l*******t 发帖数: 79 | 12 Pinterest 电面
1. 多叉树的serialize & unserialize
2. 判断一个graph是不是bipartite
Dropbox电面
1. 1) bool match(string pattern, string data)
test case:
pattern = 'abba', data = 'red blue blue red' true
pattern = 'abba', data = 'red blue yellow red' false
pattern = 'aaaa', data = 'red red red red' true
pattern = 'abba', data = red red red red' false
2) followup,remove spaces
pattern = 'abba', data = 'redbluebluered' true
pattern = 'abba', data = 'redblueyel... 阅读全帖 |
|
a*****g 发帖数: 19398 | 13 求学精神很赞啊——已经在尝试解决办法了。
你就差最后一步了。
基本数据格式改为 yyyy-mm-dd 之后,
再看看pivot report里 filter 功能还正常不正常,
能不能过滤出你指定日期的数据,还是完全失效了(数据统统都被过滤掉而无效了) |
|
i**i 发帖数: 1500 | 14 你先贴几个比较典型的数据,不需要真实数据。看看格式怎么样。
应该不难吧。 |
|
I*******e 发帖数: 1879 | 15 实际上,这个package的data基本上就是从xignite和yahoo finance上买的data。把感
兴趣的股票代码,定义成数组,然后把数据按格式输入的文件,或者弄个数据库接口,
每隔一段时间运行一下,数据就全有了。 |
|
T***0 发帖数: 669 | 16 各位收到我的程序的朋友希望你能把你查询的状态汇总一下,然后发布到这个帖子。这
样也方便大家汇总掌握个处理中心的大概状态。
处理汇总数据最好是用Excel的pivot table, 行设置成Form Type. 列设置成Status,
内容设置成Count of Status
格式如下:
【起始收据号】
【起始收据号对应日期】
【查询数量】
【查询日期】
【汇总数据】 |
|
x**********g 发帖数: 82 | 17 最近想简单处理一下http://www.flcdatacenter.com/CasePerm.aspx
的perm数据,估计一下中印2,3类大致有多少。
简单的想法是估算,5万以下的算3类,8万以上的算2类,中间的一半一半。
不过我对数据不是非常理解,希望懂的同行解释一下,例如格式是
"CASE_NUMBER","APPLICATION TYPE","DECISION DATE","CASE STATUS","EMPLOYER
NAME","EMPLOYER ADDRESS_1","EMPLOYER ADDRESS_2","EMPLOYER CITY","EMPLOYER
STATE","EMPLOYER POSTAL CODE","2007 NAICS US CODE","2007 NAICS US TITLE","US
ECONOMIC SECTOR","PW SOC CODE","PW JOB TITLE 9089","PW LEVEL 9089","PW
AMOUNT 9089","PW UNIT OF PAY 9089","WAGE OFFER FROM 9089","WAG... 阅读全帖 |
|
v**********o 发帖数: 11689 | 18 【 以下文字转载自 NBA 讨论区 】
发信人: violetlvsoso (麦兜), 信区: NBA
标 题: 【NBA版圣诞活动】趣味数据竞猜,丰厚大奖!
发信站: BBS 未名空间站 (Sat Dec 24 12:39:59 2016, 美东)
庆祝圣诞,回馈赌徒,NBA版特举办圣诞比赛趣味数据竞猜活动,参与即有奖,大奖
easy拿!
竞猜规则如下:
1.竞猜的比赛场次仅限于圣诞当天的5场比赛:
BOS @ NY, GS @ CLE, CHI @ SA, MIN @ OKC, LAC @ LAL
有效参与回帖限于圣诞当天第一场比赛开始前的回帖!
2.竞猜内容:
a) 主队胜场数 (5场比赛猜出你认为有几个主队会获胜)
b) 得分上百球队个数 (10支球队有几个得分大于或等于100)
c) 多少球员得分30+
d) 多少球员篮板10+
e) 多少球员助攻10+
f) 多少球员盖帽3+
g) 多少球员抢断3+
h)多少球员两双
i)多少球员三双
j)几场比赛出现至少一个加时
3.以上10项竞猜内容,只需写出你认为的数字即可,回帖格式请复制(也... 阅读全帖 |
|
g***u 发帖数: 5413 | 19 还碰过一次outlook同步问题,某天开始只能单方向同步。卸载itune再重装也不行,网
上研究了半天,原来卸载itune,还是留下很多文件,要手动删除才算彻底。
说到outlook,想起以前outlook 2000有2GB数据文件限制,满了也是直接完蛋,不能删
除旧信。只能靠第三方软件分割数据文件,后来升级到outlook 2003(保留旧数据格式
)才有提示,能删除旧信。 |
|
T*******t 发帖数: 1069 | 20 数据输入格式像一个表格, 每一行,用户可以在第一列键入信息,同行其他列数据自动生
成. 一行完后,
才能操作第二行, 然后第三行.用户可以生成一个一行的表格,也可以是一百行的表格,
这个表格的大小
是动态的.
我的问题是, 在VISUAL STUDIO 2010界面下,用 DATAGRIDVIEW CONTROL 可以实现, 有
没有更
好的 CONTROL 可以用.
很少用这个VS. 多谢 |
|
D*****r 发帖数: 6791 | 21 没经验上来问问,一般这种情况怎么处理:
原来有个客户服务数据库,别人能帮我把数据导出来到excel spreadsheet里,
现在想转用新数据库,应该可以import csv格式的文件
这么搞是不是太土鳖了,有没有更好的数据保存和migration的正式方法。两边数据库
应该底下都是oracle的。 |
|
l*l 发帖数: 68 | 22 之前电脑上挂了三个硬盘,一个操作系统盘,两个数据盘,前个礼拜系统盘坏了,换掉
,重新装了操作
系统,却发现原来两个数据盘中那个最大的(1TB)原来格式化成动态的,系统重装后竟
然认不出来,
BIOS显示1TB,可是DISK MANAGER里显示硬盘是动态不可用。也没有盘符。求各位高手
指点什么软件
能可靠的把数据恢复过来。。。多谢! |
|
h****n 发帖数: 4960 | 23 数据如果能恢复出来就不错了
数据搞出来了.再找一些硬盘软件看能不能恢复
不要那么贪心
你这种想法的话.那么应该数据不重要 |
|
i**e 发帖数: 6810 | 24 转到这里问问。最新update是好象Windows 7能往printer发数据,
发数据的时候printer那边也绿灯闪闪,但什么都没有打印出来,
好象数据格式不对的样子 |
|
E***e 发帖数: 3430 | 25 这个技术到底是怎么回事?
按照AMD的吹嘘,应该是CPU和GPU共同连接到一个memory controller然后共享同一块内存
我的理解是这样就不分内存显存了,系统ram谁都能用?
可是机器装起来以后,仍然看到显存700多兆,剩下的给内存
这不根本就是个噱头么?无非把CPU和GPU封装在一个模块里而已,没有任何本质进步?
我最终的目的是做计算,GPU计算有在内存显存间来回推数据的时间浪费,本来觉得APU
可以省掉这些浪费,现在看希望不大?即便内存显存做到相同,是不是数据格式也不一
样?没法把CPU处理的数据直接转手给GPU用?
不知道我的理解对不对。 |
|
S*A 发帖数: 7142 | 26 你说的对,numpy slice 的确是使用 view. 我也试过了,对于我的应用
不行。我的问题是数据量很大,就算用 mmap 也要非常有技巧。
问题是 numpy 的 slice object 比 python array.array
费很多内存。我估计 numpy slice 在 200 byte 左右。这样 slice 数目
多上去以后总的内存还是没有省。
import numpy
fp = numpy.memmap("big-file-over-1G-byte", dtype='uint32')
x = [ fp[i] for i in xrange(0, len(fp), 50)]
# load all the thing in memory. Python should take 1.x G here
x = [ fp[i:i+1] for i in xrange(0, len(fp), 50)]
# Python take over 2G here.
不知道你要问什么 bypassing.
我会写 Python 的 C module. 代码看上去很多,但是其实很多是重复... 阅读全帖 |
|
s********h 发帖数: 286 | 27 我在程序停止的时候用
print dz[j]
打印我的数据,dz是一个数组,j是index。打印出来的数据和实际不一样!
实际上,在我的程序中,也就是停止程序的前一个语句,已经让程序打印出来这个值:
fprintf(stderr, "dz[%d]=%g,",j,dz[j]);
显示的是
dz[5]=0.603372,
可是用GDB打印的结果却是
(gdb) print dz[j]
$3 = 36.7898712
我也试了打印其它格式,都不对,实在找不到问题在哪里了。
请问大家知道这是怎么回事吗?多谢先!!! |
|
W*W 发帖数: 293 | 28 一个文本文档里面是一个文字标题加下面3行4列的数据,用matlab importdata以后在x
.data里面的数据却不是3*4的,而且有 NaN , 请问这是文本格式的问题吗? |
|
H***a 发帖数: 735 | 29 任务:现有一堆binary数据文件(总共大约500MB,这个只是测试,大一点的
simulation会产生10GB左右的data),格式一样,需要逐一读入,然后构建成一个4维
的矩阵;
尝试:用IDL读大概就5秒钟,用Matlab读用了5分钟以上!
疑问:常听朋友说处理大块数据方面IDL比Matlab快,但为什么会有这么大的差异?
google了一下,有人的测试结果居然是Matlab比IDL快,难以置信。想用Matlab处理主
要是因为它的GUI比较方便,是不是没有更好的办法了?
请大家给点意见。多谢! |
|
L*******g 发帖数: 913 | 30 【 以下文字转载自 Computation 讨论区 】
发信人: LocalKing (Yeah Baby!), 信区: Computation
标 题: 请教用Mathematica输出mesh数据
发信站: BBS 未名空间站 (Thu Aug 21 00:29:20 2008)
Mathematica里有函数f(x,y),请问如何把x, y, f(x,y)的值按列输出到一个数据文件
里。
最后需要用别的软件读此文件画2D mesh图。
最终格式最好是相当于C的
for(i=0; i
x=i*dx;
for(j=0; j
y=j*dy;
fprintf(fp, "%f\t%f\t%f\n", x,y,f(x,y));
}
}
在线等2小时,多谢。 |
|
T*******t 发帖数: 1069 | 31 数据输入格式像一个表格, 每一行,用户可以在第一列键入信息,同行其他列数据自动生
成. 一行完后,
才能操作第二行, 然后第三行.用户可以生成一个一行的表格,也可以是一百行的表格,
这个表格的大小
是动态的.
我的问题是, 在VISUAL STUDIO 2010界面下,用 DATAGRIDVIEW CONTROL 可以实现, 有
没有更
好的 CONTROL 可以用.
很少用这个VS. 多谢 |
|
s*****n 发帖数: 5488 | 32 Foursquare uses MongoDB. So I would say performance is not an issue.
mongoDB的数据最后悔比mysql 大。可能又3倍以上。foursquare用两台70G的server就
搞定了。
用不用mongoDB还要看你们的需要。例如数据是不是schemaless.
比如timestamp, sensor, value, tag格式。
如果说value或者需求会经常变化,以location为例,
可以是gps location or wifi
一个是
lan/lat, accuracy,bearing, speed
一个只有ll+ accc
或者有将来扩展的需求,例如bluetooth location
或者是经常被tag,tag一些trace, debug info.
例如tag calling locID = {stream}
这样用mongoDB会很灵活。
否则的话,mysql很好用了。 |
|
N******K 发帖数: 10202 | 33 我有一个数据类 里面很多成员
成员1 是一个矩阵
成员2 是一个图
成员3~10 是 一些数字
我现在是这样保存这个类
dataobject.json 存储这个类的大致信息
有多少个成员啊
每一个是啥类型
每一个成员的简要信息:比如矩阵是 10x10的 double精度
dataobject.member1.data 存贮 矩阵 二进制方式
dataobject.member2.data 存贮 图 二进制方式
dataobject.member3to10.data 存贮 name-value pair 文本方式
这样这个类对应很多数据文件
如果更加复杂 就得变成了dataobject.memberX.memeberY.memeberZ.data
请问还有其他什么办法? |
|
l******n 发帖数: 9344 | 34 关键是不知道什么时候数据会发生改变,难道要不停的request data format然后再
decode?这样效率很低下。否则就只有一个client专门接收data format,收到新的数据
格式,然后传给另外一个只接受数据的client使用。 |
|
c*******g 发帖数: 695 | 35 希望把每个细胞的fcs ssc fl-1 fl-2
的数据都读取出来
或者保存成txt等其他软件可以读取的格式?
试了好几个软件都是只能画个图
但是无法导出原始数据
3x |
|
A*****n 发帖数: 243 | 36 现在的数据是什么格式的?
你已经装了什么软件?
你有没有编程的基础?
这都决定了该用什么方法.比如有GeneSpring的话就很简单了。 |
|
p*****y 发帖数: 1386 | 37 就是怎么能在matlab里load在IDL里保存下来的数据文件啊?IDL里面的数据文件只能存
成.sav的格式吗? 谢谢!!! |
|
d***a 发帖数: 13752 | 38 那个卡的驱动在PC上装好后,应该能看到一个虚拟COM口。
然后在PC上写程序,从那个虚拟COM口读数据进来。数据
格式在文档里应该有。也有可能,那个卡的package里
已经带了这个程序。
我没有真正用过那样的卡,但用过一个TI的单板机,写过
类似的数据桥接的程序。那个卡实际上就是一个专门做数据
relay的单板机。 |
|
a***l 发帖数: 2 | 39 如题: 因为有Excel 上的部分数据,比如说是第五行开始以后的数据想写成文本文档
格式输出,不是全部输出,所以
没在网上找到实例,非常感谢指点指点:)))) |
|
r***k 发帖数: 13586 | 40 怎样从一个.l10列表文件里读入数据成sas数据文件?格式左上有header,右上是page
number,上面有title,下面有footnote,中间一条虚线上是variable labels,虚线下
是变量值,内容是proc report输出,其中左边几列是order variable,所有变量都是
flow的。 |
|
m**********n 发帖数: 34 | 41 Does the previous example code work for your case?
Do u have PROC REPORT code in your source code or you only know this file
comes from PROC REPORT code.
And what exactly is your format of 列表文件?
怎样从一个.l10列表文件里读入数据成sas数据文件?格式左上有header,右上是page
number,上面有title,下面有footnote,中间一条虚线上是variable labels,虚线下
是变量值,内容是proc report输出,其中左边几列是order variable,所有变量都是
flow的 |
|
m****r 发帖数: 202 | 42 目的是用infile input 输入数据,原始数据在Excel里。
为不影响数据格式,使用方法
1、把Excel另存为CSV 2、SAS import CSV 3、从log里复制input
问题:如何去掉复制后的数字表记例如
172 input
173 Study_Number $
174 Patient_Id $
175 Patient_Study_Id $
176 Visit_Name $
希望把前面的数字172-176去除,请问能否用SAS执行,还是只能手工做?
多谢回复 |
|
F**********t 发帖数: 47 | 43 data a;set a;
date1 = MDY(1, 1, 2005);
format date1 YYMMDDN8.; (即使,把这句注释掉以后也不行)
date1 = MDY(1, 1, 2008);
format date1 YYMMDDN8.; (即使,把这句注释掉以后也不行)
IF DATE < date1 THEN DELETE;
IF DATE >= date2 THEN DELETE;
run;
a 表格有2001到2010年之间每个月最后一天的数据。以上代码是要删除2005年以前和
2008年以后的所有数据。可是,得到结果是表格里面没有任何数据了。
log file 里面有说 variable DATE is uninitialized.
但是,我确定变量名是 date, 而且表格a 在当前工作目录下。本来想把表格用附件贴
上来,可是论坛不让。 |
|
e******e 发帖数: 410 | 44 数据原格式是:
Start Stop Length Format
1044 1055 12 S9(9)V99
下面是一些具体的数据例子:
+00000000000
+00000000000
+00000271750
+00000000000
+00000541500
+00000000000
那么我应该用什么informat来读入这些数值? 麻烦的地方主要是那个leading sign。
多谢多谢 |
|
|
s******y 发帖数: 28562 | 46 NIH 还不是一样。除了改biosketch 格式,现在又加了一个新要求要大家在申请中开出
一个地方来陈述如何在实验中保证数据的可重复性,弄的好像是写了那段话就不再会有
人作假一样。 |
|
H*******0 发帖数: 75 | 47 首先,以下是几点写作论文是必须注意的。
1、尽量少用“I think”“As is known to all”等比较主观评价的词,更不要用未注
明来源的引语,比如“有人说过”“一位著名语言学家曾经探讨过”“功能语言学认为
”等。
2、要旁征博引,但是不能生吞活剥,东拼西凑。
3、注意文章的简洁性,对发展文章主题没有作用的引文坚决不用。
4、区别直接引用和间接引用。一手资料的引文,比如引用的内容与原文一致的就用引
号,并标注来源;一手资料间接引文,如果是归纳他人的观点的,最好是解释性地引用
他人的成功,不用引号也不需要标注来源;二手资料间接引文,如果是在阅读某人A文
献的时候发现被其引用的另一作者B也有值得引用的观点,引用的方式就是——B(1989)
曾指出„„f转引自A 19951。这里要求A和B均必须出现在参考文献中。
5、避免无意的plagiarism,也尽量不要copy.有时候将以前从某书上学习到的观点和理
论用于文章中而忽略了其来源,这就造成了无意剽窃。
6、不提出证据不足的观点,也不用“我认为”“大多数研究者会同意这样的观点”等
虚张声势的表达方式。
... 阅读全帖 |
|
j******2 发帖数: 362 | 48 实战得来的,都没答好,希望对后人有用
1.一个文件里超多行,每行格式是
user_id, item_id
其中item_id有很多重复。怎样压缩。
答案:用哈夫曼coding(越常见的用越少bit)
2.一个超大磁盘(大于内存),串行存了很多文本文件,格式是
file_name, file_size, file_content
有几十台机器可用,怎么找出重复文件。
答案:第一步:分区,用哈希函数把文件内容映射到一个整数,按整数分区到不同机器
上;第二步:在各机器上用哈希表(文件内容为key,个数为value),最后输出重复的
。 |
|
s******r 发帖数: 1968 | 49 把预约号记在手机里了,结果发现里面有好几组数据,不知道哪一组是那个预约号。真
是马虎。
谁能告诉我一个预约号是什么格式?几位数?有没有破折号什么的?
谢谢了。 |
|