由买买提看人间百态

topics

全部话题 - 话题: 数据源
1 2 3 4 5 6 7 8 9 下页 末页 (共9页)
k*******l
发帖数: 698
1
来自主题: Military版 - 一些国际政治经济趣味数据
1、世界上实行免费医疗的国家完全免费:瑞典、挪威、文莱、卡塔尔、古巴、老挝基
本免费:芬兰、新西兰、斯威士兰、阿联酋、科威特、丹麦
曾经免费后取消免费:冰岛、阿根廷、希腊、菲律宾、斐济、瑙鲁、捷克、斯洛伐克、
匈牙利、罗马尼亚、保加利亚、波兰、德国、阿尔巴尼亚、蒙古、波斯尼亚和黑塞哥维
纳、克罗地压、马其顿、黑山、塞尔维亚、科索沃、斯洛文尼亚、乌克兰、白俄罗斯、
俄罗斯、乌兹别克斯坦、哈萨克斯坦、立陶宛、爱沙利亚、拉脱维亚、摩尔多瓦、亚美
尼亚、土库曼斯坦、塔吉克斯坦、阿塞拜疆、格鲁吉亚、吉尔吉斯斯坦、越南
注:
朝鲜——为“政治身份区隔福利制”,很难进行是否免费的划分
新西兰、卡特尔——世界上仅有的两个对境内外籍人免费医疗的国家
2、世界上国内武装冲突最频繁的国家(1990年代——2013年)
年均国内武装冲突超过1000次:苏丹、南苏丹、布隆迪、阿富汗、马里
年均国内武装冲突500——1000次:贝宁、莱索托、科索沃、波黑、多哥
年均国内武装冲突100——500次:伊拉克、塞尔维亚、巴基斯坦、中非共和国、乌干达
、卢旺达、海地、印度、哥伦比亚、尼泊尔、俄罗斯、叙利亚、伊拉克、阿塞拜... 阅读全帖
s********e
发帖数: 340
2
来自主题: JobHunting版 - 请教一个Web service 的面试题!
今天刚电话面试完,其中有一个面试题不太明白意思,请教一下大家该如何回答?
问题如下:
有两个数据源,每一个数据源都有一个web service可以使用该数据源。现在想把两个
web service合并成一个,该如何做?你的解决方案中如何去判断数据来自哪个数据源?
问题的大概意思就是这个。我不太明白这个问题该如何回答?请大家和高手指教!谢谢
b****k
发帖数: 23
3
来自主题: Database版 - 必爱现在已经3伙人了


希望就这些观点能够和你进行友好平等的探讨。
比爱不是一坨屎,不过你可以文雅的把它理解为企业信息数据资源的肥料,价值是非常
大的。
本质上你说的没有错,大部分是在 OPERATION 的数据基础上提取数据,但是你忽略了
几点:
1. 就拿我以前的项目来说,企业的应用系统多达20多个,有SQL数据源,也有文件数据
库,也有从第三方回传的压缩文件,日志,包括 Excel 表等等。所以它的数据源绝对
不仅仅是 OPERATION 数据库。这个过程是普通的 SQL 语句无法处理和完成的,一定是
需要 ETL 的过程,加载,转换和清洗的,这个工作占据了数据仓库构建的 60%-70% 的
时间。
2. 为什么需要报表,是因为一个企业想从20多个异构的数据源中统计一些数据出来这
是 OPERATION 数据库绝对无法完成的,你可以想想如果把你放在这个位置你会如何处
理这些数据。在我大众金融的项目中,各个业务部门的报表加起来总共2000多张报表,
这些报表涉及到十几个应用系统。中间有非常复杂的数据清理过程,以前直接从数据源
查询数据给他们自己做,很多报表他们需要自己动手做数据处理,筛选花上3-5天... 阅读全帖
T*R
发帖数: 36302
4
我不辞辛苦,找到了好蛋引用的文章里引用的数据源
http://www.worldlifeexpectancy.com/history-of-life-expectancy
这个数据是来源于WORLDBANK/WHO等组织。
那么我们分析一下吧:
1。WORLD BANK怎么统计的中国1960年的预期寿命?只能是来源于中国的统计机构,或
者其它国家根据1950年以前数据做出的统计数据的类推。我们目前得到的国家统计局的
数据是远
远高于36.3岁的。那么我是不是可以理解这个数据来源于解放前的数据,外国人想当然
的认为就是1960年中国的数据?因为这个数据源,最早的数据就是1960年的。没有1950
年的,更没有更早的。
我是不是可以理解为这个36.3要拜托常校长的功劳甚至日本人的功劳,如果不是大清的
话。
2。根据这个数据源,1960年,中国预期寿命是36.3,1970年是61.7。那么我们是不是
可以得出结论,文化大革命使中国的人均预期寿命翻了番,让中国人民过上了幸福的日
子?
这可是好蛋你最痛恨的文革时期。
1960年,我们还可以把责任推到刘卫黄的身上,1970年,唯一的功劳是不是只有... 阅读全帖
b*******t
发帖数: 33714
5
来自主题: AudioBook版 - 文科生终于可以被消灭了[zz]
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话
可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
1、1485
2、东风(1382)
3、何处(1230)
... 阅读全帖
h*******g
发帖数: 10585
6
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话
可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
1、1485
2、东风(1382)
3、何处(1230)
4... 阅读全帖
e****e
发帖数: 2740
7
来自主题: WaterWorld版 - 文科生泡妞利器被码工摧毁了
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话
可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:
1、1485
2、东风(1382)
3、何处(1230)
... 阅读全帖
a*w
发帖数: 4495
8
【 以下文字转载自 WaterWorld 讨论区 】
发信人: evence (我们都是飞行军), 信区: WaterWorld
标 题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,... 阅读全帖
A*********e
发帖数: 4361
9
【 以下文字转载自 LoveNLust 讨论区 】
发信人: anise (琴子), 信区: LoveNLust
标 题: 【转载】传说的作诗机就是这个原理
发信站: BBS 未名空间站 (Sat Dec 3 14:09:16 2011, 美东)
太搞笑了,有了这个程序,现在全民都可以做诗人了
发信人: henryjing (little13), 信区: PhotoGear
标 题: 【转载】文科生终于可以被消灭了
发信站: BBS 未名空间站 (Sat Dec 3 10:59:32 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想... 阅读全帖
a***e
发帖数: 1073
10
太搞笑了,有了这个程序,现在全民都可以做诗人了
【 以下文字转载自 PhotoGear 讨论区 】
发信人: henryjing (little13), 信区: PhotoGear
标 题: 【转载】文科生终于可以被消灭了
发信站: BBS 未名空间站 (Sat Dec 3 10:59:32 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”... 阅读全帖
b*********9
发帖数: 458
11
【 以下文字转载自 Sex 讨论区 】
发信人: evence (我们都是飞行军), 信区: Sex
标 题: 文科生泡妞利器被码工摧毁了 (转载)
发信站: BBS 未名空间站 (Sat Dec 3 01:28:41 2011, 美东)
发信人: evence (我们都是飞行军), 信区: WaterWorld
标 题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不... 阅读全帖
h****n
发帖数: 101
12
没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz
上题了我----------------------------
假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方
Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品
为单位(组)列出所有的供货商,以及报价。
问题:
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书)
3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程
4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的货品,进行分类,这个往往分类并不完全相同。怎么能够自动
的从这些分类树中导出一个(你的)混合的分类树
7.说下你计划的结构,哪些是要实时运行,哪些不是,你的结构有何优缺点
问题较多,希望得到有经验的朋友帮助!!谢谢先
K****n
发帖数: 5970
13
我实在是没有经验哈,只在这种网站做过小卒几个月,看过波士的老code。你批判地看:
问题:
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
这个很多,最一般的方法就是把供应商的query html破解一下,找若干代理服务器,
send
query, download html,parse html。如果你和供应商有contract,可能访问一些底
层的
layer,如果得到xml,自然是更方便。
2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书)
wokao,怎么可能保证呢。你必须了解对方的数据结构,否则的话就要仔细分析对方网
页的各种可能
的情况,比如如何在query中specify每页列出的物品数量啊,然后怎么翻页啊,之类的。
3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程
真tmd难,关键字matching吧,然后可以把同义关键字放在一起。。。至于哪些是同义
关键字,倒
是可以去amazon, google shopping, bing shopping, yahoo shopping去scrape好多
h****n
发帖数: 101
14
病急乱投医了,各位database的看官多担待啊
【 以下文字转载自 CS 讨论区 】
发信人: hadmin (hadmin), 信区: CS
标 题: 急啊!应聘一个职位,对方发了一堆题
发信站: BBS 未名空间站 (Fri Oct 16 17:31:30 2009, 美东)
没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz
上题了我----------------------------
假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方
Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品
为单位(组)列出所有的供货商,以及报价。
问题:
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书)
3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程
4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的
b******g
发帖数: 81
15
在SQL Server Management Studio里,点Connect键,选Reporting Service,输入用户
名,密码,
连接后,找到你published报表(应该在Home下或Home的子目录下),
展开报表,在报表的Datasource下,应该有报表的数据源,问题就在数据源上,
双击这个数据源,估计你选了The credentials supplied by user running the
report
如果你的报表是通用权限,那么选用户名密码存在Server就行了。
h****n
发帖数: 101
16
最后转载一下 orz
【 以下文字转载自 CS 讨论区 】
发信人: hadmin (hadmin), 信区: CS
标 题: 急啊!应聘一个职位,对方发了一堆题
发信站: BBS 未名空间站 (Fri Oct 16 17:31:30 2009, 美东)
没啥时间了,买买提的诸位能帮着一起看看吗?谢了先orz
上题了我----------------------------
假设要开发一个web application,用户能够用它来比较不同供应商的货品(比方
Amazon, Ebay)。在用户搜货品名称或者选择了一个分类以后,所有相关的货品以货品
为单位(组)列出所有的供货商,以及报价。
问题:
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了(比方Amazon中所有的书)
3.怎么保证在不同数据源中同样货品的辨识问题,你准备用怎样的辨识过程
4.怎么量化辨识过程的质量,你用的辨识过程大概能提供怎样的质量,这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的货品,进行分类,这个往往分类
s*****n
发帖数: 134
17
【 以下文字转载自 WaterWorld 讨论区 】
发信人: evence (我们都是飞行军), 信区: WaterWorld
标 题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗?现在可以不用再羡慕他们了!因为一位网友“
yixuan”闲来无事,把《全宋词》拿出来“捣鼓”,算出了其中的99个高频词汇。熟记
这些高频词,你就可以随性所欲进行创作了!你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词,圆周率也可以哦!
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最
常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多
时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不
是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解
嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是
“犹解嫁”“解嫁东”“嫁东风”,... 阅读全帖
f****4
发帖数: 1359
18
说一下个人背景,各位自己判断是否有必要浪费时间看我码的字。
码完了比较之后码一点个人感想,有兴趣的就看,没兴趣的跳过,谢谢。
国内6年做项目的经历,做过通用财务(就是实现),石化行业固定资产(需求不是我
做的,别的归我负责的),服装行业预算和政府的财政预算(标书不是我写的,剩下的
我都做了)。
先说一下工程角度比较什么。需求分析,技术方案可行性,项目实现难度,项目风险控
制,工期和预算。
需求分析放这不伦不类,但需求是基础,基于需求给方案。你得了解用户想要个什么玩
意,哪些是必须实现的,哪些是可以讨价还价的。你学过的软件工程,课本上说的教条
实际行不通。国内的需求,更像agile开发过程。签了合同,用户想改需求就改了。你
就是交货,客户签字了,加个功能就加了。
工期和预算,因为之前就讨论2个方案的技术可行性,这2块没怎么提.但魏老师的方案
,主要的主机实现,是黑盒,不能堆人上去,很可能因为这一块拖累整个工期。
goodbug的方案,工期上压力还可以,因为通用方案,堆人上去。但后果也很明显:人
工上去了,人的素质总有高低,最后得靠QA把关。
技术方案可行性,之前的讨论就集中在这一块。
魏... 阅读全帖
f****4
发帖数: 1359
19
首先,一个设计方案肯定是有取舍的。这点你要是不承认,我就没法和你讲了。我只能
说,就算我相信你的方案每个方面都是最优的,但我认为你最优的过程是要增加系统复
杂度的,我还会认为这块地方实施有风险。
他们2个人其实多少都有提怎么处理票。我懒得去推了。
你去看我分析魏老师的方案的时候,新增车次,那个,我明确提到,牺牲时间,花一个
小时去导入。导入,简单吧,导入不成,再来一次。单机操作内存的事情。哪怕你U盘
拷贝失败,再来一次就是了。我还放了个假设在那,不在线兼容现有的票务系统,不然
讨论起来更复杂了。
分段票那块,魏老师的方案上主机。goodbug也认为主机能做的,只是他认为这么低的
成本的主机处理不了这么高的throughput。你看我那提的,90+CPUs,36G的server,5
万美金。我认为就是要实现,也得加点预算。不然讨论不下去了。然后就是单线程,多
线程实现的区别了。单线程,不需要加预算,好处内存不用加锁。多线程,要加预算,
坏处实现复杂一点。但是一个买票的,C++,单机的程序,实现起来你觉得这个风险大
么???
我看到后面goodbug的回帖,我知道他还是没明白他到底差了哪一... 阅读全帖
g*****g
发帖数: 34805
20
来自主题: Programming版 - ES怎么玩?
也许我翻得不好,我的意思就是join。RDBMS常见性能问题之一就是在大表上的full
table join,另外在SOA上往往多个服务多个数据源,数据源本身可以是RDBMS也可以是
NoSQL。ES存储的是Json,这就可以让你整合多个数据源,根据下游用户的需求产生一
个可搜索的rich data set。相当是一个可搜索的缓存。
e***m
发帖数: 92
21
来自主题: Programming版 - 设计一个大计算量的并行架构
这是一个我碰到的实际问题,想和大家交流一下怎样设计软件架构.
有几万个数据源会持续地生成数据,我需要对每两个数据源之间做数学建模,建模需要
很多cpu cycle。随着新的数据的不断产生,建模要周期性的重复进行,建模的结果集
中存在一个数据库里。这个应用对latency要求比较高,而且数据源可能还会增加,自
然而然,建模和要用到的数据必须分布式的进行。
我不太想用Hadoop, storm,spark等通用的parallel computing框架,而是倾向于用比
较低层的parallel框架(比如vert.x,akka,finagle等)搭一个专门解决这个问题的架
构。请问大家有什么可推荐。
e***m
发帖数: 92
22
来自主题: Programming版 - 设计一个大计算量的并行架构
谢谢大家的回复。
虽然建模要周期性的重复进行,但每次建完模,就需要立即知道模型以决定系统是不是
正常,所以对latency的要求很高。这可以被看作是一个实时监控系统。
相对于计算量来说,数据量并不大。因为是每两个数据源之间要做一次建模。如果有N
个数据源的话,就有N^2个建模。
我确实需要一个司令部来把数据源分发到不同的机器上,而且还要收集计算结果。
不太想用SPARK,因为这个问题里并没有太多的iteration,也没有什么中间变量要缓存
。SPARK可能不合适。当然,我没实战用过SPARK,不知对不对。另外,我一直觉得这个
问题很具体,对性能要求很高,不用SPARK而是直接从底层实现可能会更优化一些。
t*****a
发帖数: 459
23
来自主题: Statistics版 - 有意思的model选择
你们需要解决的问题是什么呢?年龄和性别,是比较2个数据源涵盖的年龄组和性别比
例是否相似吗?如果是这个目的,我觉得不需要考虑两个数据源包含了多少和哪些共同
的病人,就是简单比较。
Claim number是类似diagnostic code的东西吗?那么对这个的比较目的是什么呢?是
看对某些diagnoses的涵盖比例是否相似吗?还是看两个数据源对同样的病人是否给出
一致的diagnosis信息?
s****h
发帖数: 3979
24
来自主题: DataSciences版 - 如何用不同来源的Obs来fit 一个 Dist.
这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了,只能用
mixed model.
瞎说一下:
可以假设不同数据源的data都是相同类型的distribution,不同的只是参数。
参数可以用mean,std啥的来估计。
主要问题是找分布类型。
每个数据源的数据,你可以试试fit distribution。找出几种fit得比较好得分布做候
选。
对于每种后选分布,根据参数来fit所有数据源,看看那个最好。
最后,如果相同地点,相同年代的数据参数类似,那就更好了,可以justify你这个方
法。
k**i
发帖数: 10191
25
这数据太散。不好找。当时找的都找不到了。而且奥傻执政后领取福利的人急剧增加,
所以以下给的也就是个参考。我前面提到的是另一个数据源,还包括医疗等等,数据源
找不到了。
这是2009领食物票的数据:http://www.census.gov/compendia/statab/2012/tables/12s0572.pdf
2009年934千亚裔领食物票,约占亚裔人口6%;白人有10586千,约占白人人口的5%。黑
人7393,约占黑人人口18%。西裔5103,约占西裔人口10%。
另外这个表格有22%的领食物票的未透露种族或者为双种族,因此上面这个也就是估算。
即使如此,中国人拿福利比例最大肯定是拍脑袋拍出来的。
r*********t
发帖数: 4911
26
来自主题: USANews版 - VAT+UBI是劫富济贫,名副其实。
你先等会吧。你的数据和我的冲突很大。你看看我手中的数据
top 10%明明交了总税收的70%。请你提供你的数据源,然后我们可以对比政府的官方数
据,看谁的数据源有问题。
Taxpayers belonging to America’s top 10 percent of earners filed more than
14 million returns in 2016. This group reported adjusted gross income of
more than $4.7 trillion.
People belonging to this group paid more than $1 trillion, collectively, in
income taxes. Their share of total income taxes paid was about 69 percent.
http://www.foxbusiness.com/personal-finance/heres-how-much-wealthy-americans-pay-in-taxes
l*******s
发帖数: 1258
27
Thx
关于这两个问题:
1.现在数据只来自于FourSquare,确实不够用。正在试图把其他数据源整合进来,比如
Google Places和facebook等。至于让用户自行上传数据,当时确实考虑到用户没动力
,所以也就没做。
2.增加top的饭菜名单正在开发中,会在后续版本中推出。不过还是回到了前面的问题
,就是数据源不够用。解决了第一个,再来对付这个。
l*******s
发帖数: 1258
28
Thx
关于这两个问题:
1.现在数据只来自于FourSquare,确实不够用。正在试图把其他数据源整合进来,比如
Google Places和facebook等。至于让用户自行上传数据,当时确实考虑到用户没动力
,所以也就没做。
2.增加top的饭菜名单正在开发中,会在后续版本中推出。不过还是回到了前面的问题
,就是数据源不够用。解决了第一个,再来对付这个。
y****o
发帖数: 100
29
来自主题: Immigration版 - EB1-B PP I-140 批了
一直在自己准备材料准备搞1A,材料基本差不多的时候刚好公司也同意办1B就从了。
140 PP 3月8号USPIS立案,12号支票兑现,14号状态成批准。感谢版上提供帮助的朋友。
背景
CS
5封独立信,2封导师信,美,加,中,日,西班牙,荷兰
12篇文章,6个1作,186个引用。11英文1中文。好、烂、会议、杂志都有。
30个reviews,好、烂、会议、杂志都有。
申了4样:contribution,reviews,publications和 Published work in
professional publications written by others about Dr. X's work
律师是公司用的律师公司的老美和他的老美助手。
Case发到了TX中心,
总结几点:
1.推荐信不需要大牛,独立加广泛地理分布更重要。
2.文章数、引用数直接打印独立数据源的数据,比如Google Scholar上的统计表。我只
用了Google Scholar的东西。
3.引用只需要给出list,不需要提供这些文章的abstract或者全文。但这个list一定要
从独立数据源提供。比如... 阅读全帖
A********t
发帖数: 508
30
请帮忙看看事业和财运,具体时辰不是很确定,希望贴图成功,谢谢!
★ 占星之门星盘查询结果 ★
A********t
发帖数: 508
31
请帮忙看看事业和财运,具体时辰不是很确定,希望贴图成功,谢谢!
★ 占星之门星盘查询结果 ★
H**7
发帖数: 8624
32
程序功能待改进:
1)采样率提高一倍;
2)数据源或数据通道发生故障时, 仍然定时刷新纪录文件,使用特别符号标志数据无
效;
3)数据源或数据通道发生故障时, 发送提示信息至设定邮箱;
4)每天零点前自动计算日平均气温一次;
5)从 2011 年 1 月 1 日为第一天, 每七天自动计算周平均气温一次, 计算时间紧
随第七天日平均气温计算之后。
l********a
发帖数: 1154
33
来自主题: CS版 - 菜鸟求帮助 (转载)
这是你数据源有问题
检查连接字符串和数据源的配置
检查MDAC, JET and ADO是否正确安装
w**********k
发帖数: 1135
34

估计是数据源的问题,你创造数据源了吗?
r********n
发帖数: 7441
35
来自主题: Database版 - windows下mysql odbc 设置问题
mysql server 在本地机器上, windows 7 操作系统
重新装机后,mysql数据源怎么都找不到了,请问咋回事?
就是在windows下ODBC设置里面,我已经下载安装了新的mysql odbc driver
启动mysql后,在odbc中无法找到本地mysql数据库 (下拉列表无法自动列出mysql中已
经装载的数据库),请问是咋回事?其他安装数据源(access 和 sql server)都没问题
T*******x
发帖数: 8565
36
你们最后自己做data pipeline,也就是说你们自己处理数据源的log来做CDC的?比如
说你们数据源有SQL server,数据库的变化有t-log,你们是自己处理t-log来做CDC的?
b****u
发帖数: 1130
37
我们暂时还不用kafka,因为不要求做实时同步。其实就是一个简单的数据拷贝,没必
要那么麻烦。Spark 有一个很有用的东西dataframe,它可以从数据源读取表格然后直
接存到目标数据库中,数据源可以是一个文件,非常方便。
我的原则是越简单越好,能用已有的轮子最好。
不要对原始数据库的东西做任何改变,当然为了方便,也可以加几个view table。这个
好处是,以后原始数据库有一些大的变化,你只要调整重写viewtable 就可以了,
pipeline是不用变化的,有点像interface。
现在的关键是你要把数据放到什么地方。我们用redshift,它是column based,性能好
。 同时还是一个rational db, 和以前的系统兼容性好。
N**D
发帖数: 2885
38
来自主题: Programming版 - 问个有关C++ map的问题
用的是stdext::hash_multimap, 数据源会经常改动所以要重新load. 所以考虑在每次
整理数据源时候有无必要sort一下
z*******3
发帖数: 13709
39
来自主题: Programming版 - 为什么java要用setter和getter
不是,我在给你新例子
比楼主说的这个极端情况要广泛得多,几乎所有得server都会遇到
就是dto模式,如何防止多个线程并发修改同一个数据源的问题
这个太常见了,是个server就会用到,我前几天还在同步我自己的数据源
加上并发修改异常处理才大概算搞定
z****e
发帖数: 54598
40
按照datasources分的话
一般stream api用在网络上过来的数据
比如kafka,比如video,比如etl
这些都是streaming的大户,然后配合reactive
就可以比较迅速地处理数据并反馈
一般batch和table api用在硬盘上读取出来的数据
尤其是你自己系统控制的硬盘上的数据
这种用batch或者table来稿
table针对结构比较完整,精度要求高的数据源
因为精度高,相对要求也高,要求index和transaction
很正常
batch针对结构不完整,精度要求相应可以降低的数据源
比如网页搜索,一般google就反馈给你一个最相似的网页
并不是保证百分百精确,很多时候第一个结果不是你想要的
偶尔还会出现翻了几页才找到,甚至根本找不到的情况
这种情况你只能逼近,完美是不存在滴
z****e
发帖数: 54598
41
来自主题: Programming版 - Palantir靠的是军方关系

你做个事情之前,不成功就一定不做了吗?
这个世界上百分百成功的事情好像是不多的
即便有,也是很cheap的
生活就像一个战场,你总会遇到你预想不到的事发生
很正常,凡事不去做,就一定不会失败
所谓雄心万丈,躺在床上
我相信的是,凡事为之,则难者亦易矣
行不行,做了自然就知道,不行又怎样?
100%成功的事不多,但是同样,100%完蛋一无所获的事情好像也不多
为什么要害怕失败?失败那么可怕?我当年学java
安装jdk都失败过n次,以至于我后来养成一种习惯
就是做一件事,第一次就成功,我就会怀疑这个是不是搞错了
困难和失败并不可怕,可怕的是你不去做,还没开始之前就被你自己吓倒了
到现在你还在纠结什么军工,我已经告诉你了,他们还有另外一条产品线
是给银行企业用的,实在不懂到底有啥好纠结他们的军工的
你是不是认为他们除了给cia用的以外,就没有产品了?
我觉得你的关注点就是个问题
没有受过java熏陶的人,就是天然的层次感不强
数据如何保存跟数据如何处理,是两个layers的事
数据保存归客户,数据处理归你的内存运算的软件
这个在j2ee上就是最原始傻瓜的三层模型,我说的一直都是中间那一层... 阅读全帖
z****e
发帖数: 54598
42
来自主题: Programming版 - Palantir靠的是军方关系

如果你想多快好省滴完成,就应该认真看看eclipse这种常用轮子
连这种轮子都不会用,谈什么多快好省?这不是搞嘛
什么都省,就是不省人工,which是最贵的东西
就拿你的那个项目来说,我当时认真看了需求
基本上一个vert.x可以解决除了核心算法以外的所有server side需求
你折腾了一堆又是php又是python又是node的,还整合了半天
你不嫌太麻烦么?看了都累
实际上我大概能够猜出一点他们在做什么了
看你还是一脸茫然的样子,给你点拨一下
我现在越来越有信心觉得他们压根没有依赖任何特定的数据集
就是一个common的api,什么数据源都可以接受
不管这个数据源是db,还是nosql,还是xml,还是txt这种纯粹混乱的符号集合
这也差不多是从structured -> unstructured的几个代表
越往unstructured偏,越需要spark这些东西,但是我想的还要更多一点
包括real time的streaming data,所以如果flink能搞定这些的话,就比较完美
能把所有数据统一到一个界面上去的话,不需要做多少特别复杂的转换
光join就足够让人看出很... 阅读全帖
s****b
发帖数: 2039
43
来自主题: Biology版 - 11公为什么不喜欢读paper?
好吧,我同意,花1小时和诺贝尔奖获得者聊聊是可以的,而且是应该的,如果时间允
许的话。但是聊天和广泛阅读真的并不能提高科学素养,只能告诉你"如何提高"科学
素养。你引用的那段话里不是讲了么,科学方法论的养成只和科学史有关,和重大发现
的数据源有关。
科学方法论的养成和科学史有关,这个好理解。
科学方法论的养成和重大发现的数据源有关,这个我不明白,有懂的人能解释一下么?
u*******m
发帖数: 3395
44
测电流的方法只有几个:测磁场;测电压用欧姆法则算出;测电荷聚集造成的
电压的增高。你这2毫安的电流测试最方便的方法就是测串联电路中的电压降。
也就是测电压。
很明显你现有的是一个中央数据采集和处理机构(电脑),多个数据源(光电
二极管),那么现在缺的就是1对N的链接机构:几个哥们说得很清楚了:你需要
的是一个或几个multiplexer,使得中央处理器能轮流对这N个数据源采样。
既然你以前用过NI的卡,那么现在最方便的还是用NI的卡,就是需要做个分
配,比如电脑直接连接7个卡,每个卡上应该有16个通道可以采样。一共112
个通道,多余几个还可以监控供电电压和监控温度。 :)

photodiode
u*******m
发帖数: 3395
45
测电流的方法只有几个:测磁场;测电压用欧姆法则算出;测电荷聚集造成的
电压的增高。你这2毫安的电流测试最方便的方法就是测串联电路中的电压降。
也就是测电压。
很明显你现有的是一个中央数据采集和处理机构(电脑),多个数据源(光电
二极管),那么现在缺的就是1对N的链接机构:几个哥们说得很清楚了:你需要
的是一个或几个multiplexer,使得中央处理器能轮流对这N个数据源采样。
既然你以前用过NI的卡,那么现在最方便的还是用NI的卡,就是需要做个分
配,比如电脑直接连接7个卡,每个卡上应该有16个通道可以采样。一共112
个通道,多余几个还可以监控供电电压和监控温度。 :)

photodiode
m***r
发帖数: 359
46
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-14
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-14/short.html
1) 【Spark SQL 数据源 API:Spark平台的统一数据接入】 by @网路冷眼
关键词:计算框架, Spark
【Spark SQL 数据源 API:Spark平台的统一数据接入】自从Spark 1.0版本的Spark
SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到
了Spark 1.2 版本,我们已经迈出了下一步,让Spark的原生资源和更多的输入源进行
整合集成。 [1]
[1] http://code.csdn.net/news/2823955
2) 【市民眼中的绿地为何没那么多?用大数据讲述城市意象】 by @市政厅官微
关键词:应用, 规划
我们可以从大数据中找到市民心中的城市意象。从城市建设用... 阅读全帖
C***i
发帖数: 486
47
来自主题: DataSciences版 - 如何用不同来源的Obs来fit 一个 Dist.
一个project 中的一个小环节,有个问题向各位高人请教下。问题抽象出来是,客户找
到一些历史数据 (数据源=20)。因为是历史数据,而且报告地点比较离散,数据质量
很差。具体来讲,数据的样本不同,观测条件也不一致。。。 大概看起来如下:
Study 1: # of obs 100, [1,2,3,...., 100], location A, sample condition I,
etc...
Study 2: # of obs 10, [5, 7, 9,....], location B, sample condition I, etc...
Study 3: # of obs 50, [20, 25, 30, 35, ...], , location C, sample condition
II, etc...
客户想把这些数据都pool 在一起 fit 一个distribution. 我认为因为不同study, 样
本数量不同,不能简单的混在一起。因为一定要给出一个dist., 我的想法是:
1. 根据现有的conditions, merge 类似的数据,比如合并 在同一个... 阅读全帖
X*******0
发帖数: 134
48
【 以下文字转载自 Military 讨论区 】
发信人: X01100110 (X01100110), 信区: Military
标 题: 谣言战概论----教你如何造谣搞乱中国,NED必备
发信站: BBS 未名空间站 (Fri Oct 21 16:39:48 2011, 美东)
21世纪的垃圾桶,将躺满那些不重视造谣的国家。
——[谣言战之父、21世纪军事革新家] 本文作者 于2011年
谣言战,是有组织的利用谣言,以对手的社会作为打击对象,从而最终摧毁其
社会生产力和软实力的新战争形式。在信息时代的科技条件下,在国家之间处于亚对抗
、亚冲突的国际政治背景下,谣言战必将超越热战武器成为使用范围最广、使用效率最
高的军事打击形式。率先重视谣言战的使用和防御的国家,必将在国际竞争中占得先机
。轻视谣言战的国家,则将付出社会解体的代价,进而无可逆转地走向衰落。本文提出
了谣言战的概念,论证了信息时代谣言战的可行性,回顾了历史上成功的谣言战范例,
并对现代谣言战的组织、防御、拓展等作了系统的规划。
关键词:谣言战、社会性网络服务、P2P式传播
目录
一.谣言战的原理
二... 阅读全帖
1 2 3 4 5 6 7 8 9 下页 末页 (共9页)