第6页 - 关于数据格式的讨论汇总 - 话题女王

全部话题 - 话题: 数据格式

x****e
发帖数: 55

我的数据格式是这样的
1，2，3，4
21，21.2,9,11
...
数据量很大，几百万条
想要快速检索，请问有什么HASH算法能解决这个问题？
多谢！

f*******4
发帖数: 64

最近在做一个 social network data analysis 的项目
我自己想的算法效率很低，跪求大神指教。。
一个超大的txt文件（4G吧）(ID有10^6个，edge有10^8个)
全部是如下格式：
1 5
1 6
2 7
1 7
都是无序的。。这些ID
数字代表ID，我要做的是找出一个概率P（分数）：（A->C）/(A->B , B->C)，也就是
传递性，找到这个txt里三角形（传递关系）的概率
比如，如果这个txt里只有1、5、8、9、2、6.
1 5
5 8
5 9
1 8
2 6
1认识5,5认识8,1认识8,；1认识5,5认识9,但1不认识9。这个P就等于0.5。。（A->C）
/(A->B , B->C)（因为2、6无法和另一个ID产生关系，因此不要）我的target就是要求
出这个P。。
因为这些ID肯定都是long型，然后edge估计有个N*10^8,我不确定是否可以用内存（我
们服务器内存15Gb）。
目前，我是这么做的：把这个大txt，按ID的除余，分成0-19999两万个hash txt，然后
操作，这种做I/O明显是很大的，然后处理，又因... 阅读全帖

s*****n
发帖数: 134

来自主题: CS版 - 怎么把3维pixel数据转换成3维图像？

单独写个3D可视化的引擎估计工作量太大，可以试试把你的数据写成Dicom 或者Nifti
之类的医用形象格式的文件，然后就可以这里的软件来看了

L******r
发帖数: 199

来自主题: Database版 - MySQL,文本数据，同一行数据中，多于一种分隔符的读取

1.用load data infile,还有别的办法?
2.上百亿
3.格式如下：Word_0[SPACE]Word_1[SPACE]Word_2[SPACE ]Word_3[TAB]Number_0
谢谢

n********6
发帖数: 1511

来自主题: Database版 - 问一下给客户作小项目报价区间/幅度和技巧

- 销售人员产生的数据报表不可靠，数据格式不规范，用etl自动读取很容易出错。为
避免麻烦，作form with validation，让他们录入。
- 确实如此。就怕不断提要求。所有项目都是这样的。我已经明确说明了，先做最简单
的。（比如user name and password retrieval，靠人工实现）。
- documentation确实很重要。白纸黑字最好。

c*****d
发帖数: 6045

来自主题: Database版 - 问题求教：怎样从MS SQL 转送数据到oracle

MS SQL自己的dts就可以做
或者把数据倒成文本格式，在oracle里用sqlldr导入

L*******r
发帖数: 1011

来自主题: DotNet版 - using weather XML feed in C# - 2

数据格式比较统一，是说如果数据看来都像表格似的。结构有重复什么的。
这是我自己的感觉，如果你熟悉数据库的话，你就明白我在说什么。
dataset里面含有表，关系，constraint,整个一个数据库结构翻版。
我主要不想看到有上百个表，每个表里就是一个记录这种情况。不过如果这样的话，那个
XML文件也就够不结构化的了。:)
恩，我现在觉得dataset这个设计不错，比较推荐。
当然，SAX是经典方法，还是应该学会的。赫赫

s*******s
发帖数: 1250

来自主题: Hardware版 - 有xml大牛吗？

schema相当于数据格式/结构/字典...
XML相当于具体数据

L******d
发帖数: 2461

来自主题: Hardware版 - 打算上个Synology412+，问个恢复数据的问题

据说synology公布了数据的格式，所以数据恢复不是问题。
看过一个用Pmagic_LINUX启动来恢复的方法。具体没有操作过。
“
用grub4dos引道，菜单这么写：
title Pmagic_LINUX
find --set-root /pmagic/bzImage
kernel /pmagic/bzImage
initrd /pmagic/initrd.img
http://pan.baidu.com/s/1o6pZ09O”
http://hdgebi.cn/thread-235785-1-2.html

F****n
发帖数: 3271

来自主题: Java版 - JAXB

你说的这个问题非常TYPICAL，N年前在JAXB尚为成标准的时候我就发现了这个东东，觉
得是好东西一度将所有PROJECTS里的XML应用都做成JAXB。但过了几个月许多就不得不
改回来。为什么？JAXB容错性太差，实际应用中XML数据不标准的太多，用JAXB会产生
huge headache
总结的经验是，如果是自己定义的新标准，应该推广JAXB，如果是LEGACY的数据格式（
特别象你这种连XSD都没有的），还是别浪费时间了，老老实实写HANDLER吧。

unmarshal。

h*********d
发帖数: 336

来自主题: Java版 - 要将数据同时生成JSON和XML, 应该先生成哪个，再转换成另一个

一样的数据，只是要两种格式，JSON和XML，应该先生成哪个比较好，再用个库转换成
另一个？
我看了一下，可用的有JsonBuilderFactory 或 XMLObjectBuilderFactory（这个库不
是Java自带的，Java 7 以前有自带的XMLbuilder库吗，没找的）
请大侠指点，多谢

h*********d
发帖数: 336

来自主题: Java版 - 要将数据同时生成JSON和XML, 应该先生成哪个，再转换成另一个

g*******t
发帖数: 7704

来自主题: Programming版 - 请问：如何设计一个复杂数据类的存储文件格式

数据多复杂都可以, 关键是用途, 不讲究实时, 就很容易,

D***n
发帖数: 6804

来自主题: Programming版 - 请问：如何设计一个复杂数据类的存储文件格式

表搞那么复杂。最简单的是：
发送方建立一个目录，把你着些数据存在这个目录下，然后一个zip ....
接收方收到，unzip解压缩 ...
不信你可以去试，这是最灵活最可靠的方法。库可以考虑下面这个。
http://www.libarchive.org/

N******K
发帖数: 10202

来自主题: Programming版 - 请问：如何设计一个复杂数据类的存储文件格式

如果有树形文件结构就好了：我说的是一个文件不是目录
class object
{
member1;
member2;
...
memberN;
}
objest::save(FileName_object)
{
保存这个类的信息：有几个member，每一个是什么类型的, member数据文件的名字
自动生成 FileName_member1， FileName_member2，。。。，FileName_memberN
//保存各个成员
member1.save(FileName_member1);
member2.save(FileName_member2);
...
memberN.save(FileName_memberN);
}
这样可以递推执行最后整个类存到了一个树形结构的大文件中
不知道有没有现成的方案？

N******K
发帖数: 10202

来自主题: Programming版 - 请问：如何设计一个复杂数据类的存储文件格式

这个与你说的过的json数据类有什么联系没有？

z****e
发帖数: 54598

来自主题: Programming版 - 开马scala感觉不会写code了

json就是一个object
那个o就是object的意思
不同的数据格式而已
并不是只有set/get才叫object
你用ruby，js等网络脚本的话，json直接嵌入你的代码都可以
同样的，scala可以直接把xml嵌入代码
java，swift等需要转换成class object
这种一捅到底的方式应该是很早以前就在追求的
省得改来改去，但是当然会有一些trade off
存储之后查找起来效率就比较低，因为没有经过整理
其次，这种方式对于crud来说比较容易
但是对于一旦数据需要转换，就会显得很不自然
比如游戏的server，经常要转换object的状态
这个时候immutable就显得很笨拙

t**r
发帖数: 3428

来自主题: Programming版 - 大家一般用芒果存什么样的数据

就我感觉就是把schma数据存成json格式换汤不换药求大神点拨

h*********d
发帖数: 336

来自主题: Programming版 - 要将数据同时生成JSON和XML, 应该先生成哪个，再转换成另一个

l******n
发帖数: 9344

来自主题: Programming版 - 怎么设计这个client

嗯，是这样的
麻烦的数据格式在传输中会发生改变，所以得到的数据可能会是junk
现在想监控一下，避免这种情况发生

m*********n
发帖数: 6098

来自主题: Accounting版 - simulation格式

官方网站上下不了, 什么地方还有免费的sample?
另外, 写作部分可以spell check, copy paste, undo吗?
还有好象只有situation tab有数据, 做题的时候, 还要回到这个tab去找数据? 这样很
浪费时间呀? 还是在一个screen下可以看原题,又可以做题?
还有做题时, 有象excel一样的输入公式的计算功能吗?

b****r
发帖数: 17995

来自主题: Biology版 - 板上多少人用matlab处理数据的

编程到是不怕去学，当年好歹用C++ 和SAS处理过些简单的东西还发了文章的，我现在
其实要求很简单，也没有打算短期内做任何复杂的运算，将来也没打算专攻
bioinformatics，只要能迅速的处理一些多excel复杂条件读取和简单统计就行了。不
知道R对excel的格式兼容性如何？比如有的格子有颜色，有的粗体，有的前面有‘（为
了标注成文本字符）
我觉得matlab比较吸引我的一点是数据处理过程中的用户界面很友好，随时能看到自己
的数据怎么样了，很多命令还可以通过鼠标点击完成，以我对R极有限的认识，好像这
两方面R做得不如matlab，不知道大侠以为如何？

computing

L*******g
发帖数: 913

来自主题: Computation版 - 请教用Mathematica输出mesh数据

Mathematica里有函数f(x,y)，请问如何把x, y, f(x,y)的值按列输出到一个数据文件
里。
最后需要用别的软件读此文件画2D mesh图。
最终格式最好是相当于C的
for(i=0; i x=i*dx;
for(j=0; j y=j*dy;
fprintf(fp, "%f\t%f\t%f\n", x,y,f(x,y));
}
}
在线等2小时，多谢。

p********t
发帖数: 1219

来自主题: GeoSpace版 - 中国科大GPS实验室矢量地图GIS自动生成校正平台技术基础

李德仁院士最近指出：“在人类所接触到的信息中有80%与地理位置和空间分布有关，地
球空间信息是信息高速公路上的货和车。数字地球不仅包括高分辨率的地球卫星图像，还
包括数字地图，以及经济、社会和人口等方面的信息”。由栅格地图经计算机处理获得矢
量地图是目前GIS研究发展的重要课题，也是“九五”期间，被原国家科委作为独立课题
列入“重中之重”的科技攻关计划。因为“中国目前数字地图GIS可以说仅处于刚刚起步
的阶段，绝大多数城市与地区的交通数字地图GIS都还是一片空白”。
我们利用模式识别原理，直接对扫描图像进行特征抽取获得交通道路网络信息，自动矢量
化，再基于现场采集的GPS道路轨迹（含经纬度）数据对矢量地图的所有节点精确位置进
行自动校正。矢量地图自动校正是本课题最有学术价值又极具应用潜力的部分。我们在自
己矢量地图数据格式（98年论文）的基础上，不断改进着所创立的矢量地图生成平台与矢
量地图用户平台。我们在矢量地图自动校正方面提出多种新方法（分为整体加权线性拟合
或离散分块非霞男湃 walklooktalk (千红一窟)
标题: 本站增加虚拟币等功能
发信站: BBS 未名空间站

p********t
发帖数: 1219

来自主题: GeoSpace版 - 如何把mapinfo格式的地图数据放到网页中显示

zz
MapXtreme Java，是目前用于Internet或企业Intranet唯一的100%纯Java地图服务
器。MapInfo MapXtreme Java与J2EE兼容，为开发人员开发应用提供了无与伦比的灵活
性。MapXtreme Java向应用开发商提供了一个高度可视化的、直观的组件，方便他们将
地图功能集成到任何Web应用中。MapXtreme Java帮助用户在企业内部轻松实现信息共
享，更好地向顾客提供服务，做出商业决策，更有效地管理资产和运营。
MapXtreme Java支持大量的网络开发，包括瘦、中和胖的web浏览器客户端
MapXtreme 2005为熟悉Microsoft .NET开发环境的Microsoft® Windows®程
序员设计，利用它您将能够开发出能够将位置与现有系统和基础结构结合到一起的应用
程序和解决方案。
凭借着用MapXtreme 2005开发的应用程序，您的单位将能够实现数据的可视化并对其进
行分析，发现新的关系和趋势，而这些都是用传统方法，如电子表格和报告难以发现的
信息
MapXtreme2005是

x****e
发帖数: 55

来自主题: Mathematics版 - 请问有什么HASH算法可以用来检索一组数字的？

我的数据格式是这样的
1，2，3，4
21，21.2,9,11
...
数据量很大，几百万条
想要快速检索，请问有什么HASH算法能解决这个问题？
多谢！

c**m
发帖数: 757

来自主题: NanoST版 - 有没有免费的软件可以读bruker SAXS 的数据的？

系里刚买了一个bruker SAXS，软件是我见过最差的。测试出来的数据以.gfrm为后缀。
虽然可以转换成ascii格式，但是导入excel还是不方便。所以问问大家有没有可以直接
读.gfrm的软件。

g****g
发帖数: 1828

来自主题: Physics版 - .top 或者 .dat 文件用什么画图？

我看基本的数据格式已经非常明显了。我正在打算用ROOT的graph或者histogram试一试
，比如把这些数据做成个array，就可以画图了。
bash script我学了半年了，还是没有入门。。。所以你的脚本我看不懂。

c*******7
发帖数: 2506

来自主题: Statistics版 - 请教sas高人（数据读入）

原始数据的格式：
a b c d e
7 3 4 6 9
f g h i j
10 3 23 4 6
需要通过sas读入成下面的layout：
a 7
b 3
c 4
d 6
e 9
f 10
g 3
h 23
i 4
j 6

p*****o
发帖数: 543

来自主题: Statistics版 - 问个SAS数据读入问题

首先我觉得这个问题特别不好解释清楚。。。
所以我将它简化成一个例子，附件1（tem.jpg)中（第一行只是为了显示POSITION），我
有两个RECORD（实际的DATA有2000多个RECORD)，每个RECORD有4个BLOCK（实际DATA有450个BLOCK），每个BLOCK的长度都是20。
那么如果BLOCK是以字母开头的，则POSITION1-4是COURSE CODE，POSITION5-7是COURSE
SCORE，POSITION8-15是COURSE老师的NAME（另外，第一次出现的关于COURSE的BLOCK
就是第一学期的，第二次出现关于 COURSE的BLOCK就是第二学期的。。。）。
如果BLOCK是以数字开头的，则POSITION1-9是奖学金CODE,10-15是奖学金金额（同样，
第一次出现的关于奖学金的BLOCK就是第一学期的，第二次出现关于奖学金的BLOCK就是
第二学期的。。。。）
我想最后读成像附件tem2.jpg这样的格式（可以有MISSING VALUE)（另外，S1值得是
SEMESTER1，省略号是因为真是的数据中，有15个SEMST

W**********E
发帖数: 242

来自主题: Statistics版 - 包子贴: 求一个思路

衡量一个分级系统。每个研究个体取样，分总的样本量N和其中的阳性样本量n。
然后根据总样本量－N 和其中的阳性样本数－N１来给研究个体分级，结果变量为生存
时间。具体: 如果分１，２，３，４级，那么１组平均生存时间应该最长，２组其次，
３组要短，４组最短
当然是每个个体样本总量取的越多，阳性样本的数量也越精确，那么分级也准确。
现在问题是研究个体取总样本量比较费精力和金钱，如何能计算一个所需要的最小总样本量然后分级精确差得不多？
有无一个思路？想着用hypergeometric distribution LIKELIHOOD和SIMULATION。实
际数据也有。数据格式：
ID TOTAL＿N POSITIVE＿N SURVVIALTIME CENSOR
111 5 1 100 1
112 6 0 90 0
113 10 3 30 1
....
30个伪币求助

l*******s
发帖数: 1258

来自主题: Statistics版 - 求帮助：excel数据转csv和sas的读取

随便用个什么java或python啥的装个open source lib
先把excel数据读出来转成你需要的格式
比如java可以考虑POI

l*******s
发帖数: 1258

来自主题: Statistics版 - 求帮助：excel数据转csv和sas的读取

如果你会java的话，调用POI这个open source包，直接读取Excel数据，然后想怎么该
怎么改，随便输出什么格式。
呵呵，比较暴力直接的方法，但是it works！

w**2
发帖数: 147

来自主题: Statistics版 - 请教：用SAS export的csv文件有数据不全情况，该如何解决

最近在处理一些数据，遇到这个问题：比如人名，最后一到两个字母没有出现在输出的
文件里。貌似，csv好像很容易改变文件本身的格式。请问这个情况应该如何解决？多
谢。

V****e
发帖数: 858

来自主题: Statistics版 - 问 Excel VLOOKUP的问题

数据格式查过，从general 变成number,也还是不行，不知道怎么回事。
而且ID数据还还长短不一。

s****h
发帖数: 3979

来自主题: DataSciences版 - spark 问题

新手请教一个scala+spark问题:
数据格式: userid itemid1,itemid2,itemid3,...
sample:
5 7,13,20,27
12 7,10,27,33
需要做的是,每两个userid的item vector算cosine, 每个user, sort其他user by
cosine value.
其实就是一个KNN.
我想得是
a. 一行行读进来,每行一个sparse vector
or
b. 一起读进一个sparse matrix
两种方式都不会.
多谢多谢。
scala+spark经验只限于根据spark summit上的alswr code照猫画虎，处理了一下自己
的数据。

s*******n
发帖数: 4605

来自主题: Donation版 - 提供ppt格式的poster供各自修改使用

这是最新修改版本，对数据、语法做了修正。

q*******n
发帖数: 20306

来自主题: Military版 - 中国的机场, 最大的愚昧是按西方格式设计

首都机场的日客流量是多少？我没数据，但凭感觉，相当于某些县级火车站的客流
吧。我呆的这个雪城，雪城机场算是个中等大的机场了，我凭感觉它的客流每天可
能不到一千人，就这么小的客流，候机楼建筑物也能容纳十万人。如果建筑物造的
这么大是不要钱的也就罢了，如果它的取暖空调和维护管理也是免费的也罢了，只是
我做为旅客，我奇怪我为什么有必要从进候机楼到登机，要在楼里走一公里。
我说嘛，对现有机场设计无意见的人，都是油瓶倒了不知扶的人，都是不知道自己
应该穿多大码的鞋的人，如果用裹脚布把他们的脚都裹成几寸大，他们也感觉不出来
，因为他们是天生白痴。
不幸的是，几乎所有人都是这样的，所以我说民主没有实行的基础。面对一群满脑
子浆糊和偏见的人，没办法民主。

D*V
发帖数: 3096

来自主题: Military版 - 触目惊心:中国惨不忍睹的外汇进口价格数据2008-2011

楼主，你的格式太不对齐了，不好看，
。。。

m**********e
发帖数: 12525

来自主题: Military版 - 国内银行的IT为什么如此落后？谁清楚的来说说。

主要祖国没有国家级的RSA安全证书根服务,而且也没啥欲望搞这种根服务.
比如,美国有verisign提供根证书,很久前天朝政府也试图提供这种服务,
但是连签个个人证书都要收钱,搞得跟现在的北斗一样,最后谁也不鸟,自己
就死了.
所以祖国的银行只好自己搞根证书服务器,但是银行自己签发的根证书不
被windows认可,你一用就说是非法证书,所以,银行只好自己发行u盾,u盾
里面是啥?就是根证书的public key.
所以,其实银行也有苦难言,一切都是体制问题,真的
这次北斗也一样,人欧洲伽利略卫星还没发射,卫星数据格式文件早已经公布,
所以第三方产品厂商早就开始生产廉价接受设备,但是祖国呢,就是死活不对
外公布,只提供给自己的设备商,于是造成终端设备要上万块钱,妈的,上万块
谁用你啊

物。

c***u
发帖数: 4107

来自主题: Military版 - endnote这个烂软件

更推荐redcube
zotero这个垃圾, 我用了很久, 大量的comment和note.
有一次升级以后(当然, 我是从很久以前的一个版本升级到最新版), 居然不兼容以前的
数据格式, 而且还不提醒一下.
装完了, 发现以前的comment和note都没有了, 想downgrade都没戏.

d********t
发帖数: 9628

来自主题: Military版 - 你们对生物的理解都停留在杀老鼠，那不是生物

扯，哥PHD高能research 90%的时间就是把一种数据格式转换成另一种。

d*****u
发帖数: 17243

来自主题: Military版 - 用到的数据居然有来自mitbbs的

懒得整理格式了，懂的自然懂
wb/c2e/00/c2e_0029 0 0 I PRP (TOP(S(NP*) - - - _poqi_ * (0)
wb/c2e/00/c2e_0029 0 1 have VBP (VP* have 03 4 _poqi_ * -
wb/c2e/00/c2e_0029 0 2 deep JJ (NP(NP* - - - _poqi_ * -
wb/c2e/00/c2e_0029 0 3 feelings NNS *) feeling - 1 _poqi_ * -
wb/c2e/00/c2e_0029 0 4 and CC * - - - _poqi_ * -
wb/c2e/00/c2e_0029 0 5 a DT (NP(NP* - - - _poqi_ * -
wb/c2e/00/c2e_0029 0 6 lot NN *) lot ... 阅读全帖

d****o
发帖数: 32610

来自主题: Military版 - 7月份数据：70城最新房价出炉这座城市再次领涨

不是这个
我是说“xxxx,这个国家xxx”“xxxx,这座城市xxx”这个格式

d*****l
发帖数: 8441

来自主题: Military2版 - 流落美国的J8-II典范惨相

数据链的协议和数据格式，天线的频率，导航台的频率，导航接受设备等等足以反推出
跟这些设备联络的发射设备以及导航台的技术参数！要全国全军范围内部更换所有受影
响的发射设备和导航台设备，所需要的资金海了去了！

c**********n
发帖数: 227

来自主题: RisingChina版 - 土共明说了

针对最后一点第九点，我觉得政府可以使着统一财务报表，比如xbrl，已经有全球性的
组织在倡导市场数据格式的统一，对整顿规划市场树立中国金融形象有利，在资本主义
国家推行难度大，我们国家或许能率先实现。政府可以组织人力进一步开发推行这个计
划。
详细参阅
http://zh.wikipedia.org/wiki/XBRL
http://www.xbrl.org/Home/

T*********I
发帖数: 10729

来自主题: USANews版 - 新法律要求IMDB尊重演员隐私并要求删除年龄数据 cnBeta.COM maomao 14小时47分钟前如果你曾经好奇一个演员的年龄，你可能已经在IMDB网站找出他/她的真实年龄。不过，加利福尼亚州通过了一项新的反歧视法，从明年开始，要求互联网电影数据库必须符合新法要求，从数据库当中删除年龄的细节。该法案编号AB-1687，要求网站不显示用户或者名人的年龄信息，底线是不能在显著位置显示。部分人欢迎这项新法律，但是也有人认为新法侵犯言论自由。加州州长杰里·布朗已经签署法案，使其成为法律，以确保在互联网网站上获得的个人年龄将不会在就业或年龄歧视中实施使用。受到影响的网站不仅限于IMDB，但它是必须遵守该法案最大的网站之一。虽然好莱坞大牌明星的年龄信息很容易从其他在线资源当中获得，但是这项法案旨在保护鲜为人知的小演员更有竞争力。这些演员不应该只是因为年龄原因，被排除在试镜之外。但美国互联网协会发言人表示：我们对州长今天签署AB-1687使其成为法律感到失望。我们仍然关注该法案，它开创了在互联网上压制事实资料的先例。 http://static.cnbetacdn.com/thumb/article/2016/0926/d4c0048756af25b.jpg_600x600.jpg [广告]活动入口: 买美股，上老虎 - 超低佣金，每股只需1美分

照片能够泄漏性别、种族
应该统一用这个照片：
所有的演员统一格式

t*********u
发帖数: 26311

来自主题: ebiz版 - 那个记账系统后台用的什么数据格式啊

g********r
发帖数: 8017

来自主题: Faculty版 - 有人跟我一样 review恐惧症么？

大概跟做的东西有关吧。跨专业的，从数据采集，模型假设，数据格式，软件的手册，
天南地北无所不问啊。不是不能回答，但是能把人累个半死。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天