关于数据源的讨论汇总 - 话题女王

全部话题 - 话题: 数据源

k*******l
发帖数: 698

1、世界上实行免费医疗的国家完全免费：瑞典、挪威、文莱、卡塔尔、古巴、老挝基
本免费：芬兰、新西兰、斯威士兰、阿联酋、科威特、丹麦
曾经免费后取消免费：冰岛、阿根廷、希腊、菲律宾、斐济、瑙鲁、捷克、斯洛伐克、
匈牙利、罗马尼亚、保加利亚、波兰、德国、阿尔巴尼亚、蒙古、波斯尼亚和黑塞哥维
纳、克罗地压、马其顿、黑山、塞尔维亚、科索沃、斯洛文尼亚、乌克兰、白俄罗斯、
俄罗斯、乌兹别克斯坦、哈萨克斯坦、立陶宛、爱沙利亚、拉脱维亚、摩尔多瓦、亚美
尼亚、土库曼斯坦、塔吉克斯坦、阿塞拜疆、格鲁吉亚、吉尔吉斯斯坦、越南
注：
朝鲜——为“政治身份区隔福利制”，很难进行是否免费的划分
新西兰、卡特尔——世界上仅有的两个对境内外籍人免费医疗的国家
2、世界上国内武装冲突最频繁的国家（1990年代——2013年）
年均国内武装冲突超过1000次：苏丹、南苏丹、布隆迪、阿富汗、马里
年均国内武装冲突500——1000次：贝宁、莱索托、科索沃、波黑、多哥
年均国内武装冲突100——500次：伊拉克、塞尔维亚、巴基斯坦、中非共和国、乌干达
、卢旺达、海地、印度、哥伦比亚、尼泊尔、俄罗斯、叙利亚、伊拉克、阿塞拜... 阅读全帖

s********e
发帖数: 340

来自主题: JobHunting版 - 请教一个Web service 的面试题!

今天刚电话面试完，其中有一个面试题不太明白意思，请教一下大家该如何回答？
问题如下：
有两个数据源，每一个数据源都有一个web service可以使用该数据源。现在想把两个
web service合并成一个，该如何做？你的解决方案中如何去判断数据来自哪个数据源？
问题的大概意思就是这个。我不太明白这个问题该如何回答？请大家和高手指教！谢谢
！

b****k
发帖数: 23

来自主题: Database版 - 必爱现在已经3伙人了

。
希望就这些观点能够和你进行友好平等的探讨。
比爱不是一坨屎，不过你可以文雅的把它理解为企业信息数据资源的肥料，价值是非常
大的。
本质上你说的没有错，大部分是在 OPERATION 的数据基础上提取数据，但是你忽略了
几点：
1. 就拿我以前的项目来说，企业的应用系统多达20多个，有SQL数据源，也有文件数据
库，也有从第三方回传的压缩文件，日志，包括 Excel 表等等。所以它的数据源绝对
不仅仅是 OPERATION 数据库。这个过程是普通的 SQL 语句无法处理和完成的，一定是
需要 ETL 的过程，加载，转换和清洗的，这个工作占据了数据仓库构建的 60%-70% 的
时间。
2. 为什么需要报表，是因为一个企业想从20多个异构的数据源中统计一些数据出来这
是 OPERATION 数据库绝对无法完成的，你可以想想如果把你放在这个位置你会如何处
理这些数据。在我大众金融的项目中，各个业务部门的报表加起来总共2000多张报表，
这些报表涉及到十几个应用系统。中间有非常复杂的数据清理过程，以前直接从数据源
查询数据给他们自己做，很多报表他们需要自己动手做数据处理，筛选花上3-5天... 阅读全帖

T*R
发帖数: 36302

来自主题: Military版 - 俄罗斯国家电台怒斥新华网：苏联解体是民心所向

我不辞辛苦，找到了好蛋引用的文章里引用的数据源
http://www.worldlifeexpectancy.com/history-of-life-expectancy
这个数据是来源于WORLDBANK/WHO等组织。
那么我们分析一下吧：
1。WORLD BANK怎么统计的中国1960年的预期寿命？只能是来源于中国的统计机构，或
者其它国家根据1950年以前数据做出的统计数据的类推。我们目前得到的国家统计局的
数据是远
远高于36.3岁的。那么我是不是可以理解这个数据来源于解放前的数据，外国人想当然
的认为就是1960年中国的数据？因为这个数据源，最早的数据就是1960年的。没有1950
年的，更没有更早的。
我是不是可以理解为这个36.3要拜托常校长的功劳甚至日本人的功劳，如果不是大清的
话。
2。根据这个数据源，1960年，中国预期寿命是36.3，1970年是61.7。那么我们是不是
可以得出结论，文化大革命使中国的人均预期寿命翻了番，让中国人民过上了幸福的日
子？
这可是好蛋你最痛恨的文革时期。
1960年，我们还可以把责任推到刘卫黄的身上，1970年，唯一的功劳是不是只有... 阅读全帖

b*******t
发帖数: 33714

来自主题: AudioBook版 - 文科生终于可以被消灭了[zz]

你羡慕那些出口就会吟诗的文人吗？现在可以不用再羡慕他们了！因为一位网友“
yixuan”闲来无事，把《全宋词》拿出来“捣鼓”，算出了其中的99个高频词汇。熟记
这些高频词，你就可以随性所欲进行创作了！你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词，圆周率也可以哦！
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道：“突然想看看宋词里面什么样的意象是最
常见的，比如可以做个频率分析什么的。当然文本挖掘需要分词，我没法在其中花太多
时间，于是想出了一个土办法。宋词的句子都很短，如果穷举可能的字的组合的话并不
是太多，况且最常见的词语一般是两三个字，这样可能的组合就更少了。”比如“犹解
嫁东风”这句话，可能的二字组合是“犹解”“解嫁”“嫁东”“东风”，三字组合是
“犹解嫁”“解嫁东”“嫁东风”，词的字数越多，可能的组合就越少。如果把每句话
可能的字的组合都列举出来，就可以整体统计频率了。”大家一致分析这位网友一定是
个理科生。
随后， “yixuan”贴出了他算出来的高频词，排在前面的分别是：
1、1485
2、东风(1382)
3、何处(1230)
... 阅读全帖

h*******g
发帖数: 10585

来自主题: PhotoGear版 - 【转载】文科生终于可以被消灭了

e****e
发帖数: 2740

来自主题: WaterWorld版 - 文科生泡妞利器被码工摧毁了

a*w
发帖数: 4495

来自主题: Joke版 - 文科生泡妞利器被码工摧毁了

【以下文字转载自 WaterWorld 讨论区】
发信人: evence (我们都是飞行军), 信区: WaterWorld
标题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗？现在可以不用再羡慕他们了！因为一位网友“
yixuan”闲来无事，把《全宋词》拿出来“捣鼓”，算出了其中的99个高频词汇。熟记
这些高频词，你就可以随性所欲进行创作了！你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词，圆周率也可以哦！
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道：“突然想看看宋词里面什么样的意象是最
常见的，比如可以做个频率分析什么的。当然文本挖掘需要分词，我没法在其中花太多
时间，于是想出了一个土办法。宋词的句子都很短，如果穷举可能的字的组合的话并不
是太多，况且最常见的词语一般是两三个字，这样可能的组合就更少了。”比如“犹解
嫁东风”这句话，可能的二字组合是“犹解”“解嫁”“嫁东”“东风”，三字组合是
“犹解嫁”“解嫁东”“嫁东风”，... 阅读全帖

A*********e
发帖数: 4361

来自主题: Memory版 - 【转载】传说的作诗机就是这个原理 (转载)

【以下文字转载自 LoveNLust 讨论区】
发信人: anise (琴子), 信区: LoveNLust
标题: 【转载】传说的作诗机就是这个原理
发信站: BBS 未名空间站 (Sat Dec 3 14:09:16 2011, 美东)
太搞笑了，有了这个程序，现在全民都可以做诗人了
发信人: henryjing (little13), 信区: PhotoGear
标题: 【转载】文科生终于可以被消灭了
发信站: BBS 未名空间站 (Sat Dec 3 10:59:32 2011, 美东)
你羡慕那些出口就会吟诗的文人吗？现在可以不用再羡慕他们了！因为一位网友“
yixuan”闲来无事，把《全宋词》拿出来“捣鼓”，算出了其中的99个高频词汇。熟记
这些高频词，你就可以随性所欲进行创作了！你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词，圆周率也可以哦！
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道：“突然想看看宋词里面什么样的意象是最
常见的，比如可以做个频率分析什么的。当然文本挖掘需要分词，我没法在其中花太多
时间，于是想... 阅读全帖

a***e
发帖数: 1073

来自主题: LoveNLust版 - 【转载】传说的作诗机就是这个原理

太搞笑了，有了这个程序，现在全民都可以做诗人了
【以下文字转载自 PhotoGear 讨论区】
发信人: henryjing (little13), 信区: PhotoGear
标题: 【转载】文科生终于可以被消灭了
发信站: BBS 未名空间站 (Sat Dec 3 10:59:32 2011, 美东)
你羡慕那些出口就会吟诗的文人吗？现在可以不用再羡慕他们了！因为一位网友“
yixuan”闲来无事，把《全宋词》拿出来“捣鼓”，算出了其中的99个高频词汇。熟记
这些高频词，你就可以随性所欲进行创作了！你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词，圆周率也可以哦！
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道：“突然想看看宋词里面什么样的意象是最
常见的，比如可以做个频率分析什么的。当然文本挖掘需要分词，我没法在其中花太多
时间，于是想出了一个土办法。宋词的句子都很短，如果穷举可能的字的组合的话并不
是太多，况且最常见的词语一般是两三个字，这样可能的组合就更少了。”比如“犹解
嫁东风”这句话，可能的二字组合是“犹解”“解嫁”“嫁东”... 阅读全帖

b*********9
发帖数: 458

来自主题: Poetry版 - 文科生泡妞利器被码工摧毁了 (转载)

【以下文字转载自 Sex 讨论区】
发信人: evence (我们都是飞行军), 信区: Sex
标题: 文科生泡妞利器被码工摧毁了 (转载)
发信站: BBS 未名空间站 (Sat Dec 3 01:28:41 2011, 美东)
发信人: evence (我们都是飞行军), 信区: WaterWorld
标题: 文科生泡妞利器被码工摧毁了
发信站: BBS 未名空间站 (Fri Dec 2 12:12:24 2011, 美东)
你羡慕那些出口就会吟诗的文人吗？现在可以不用再羡慕他们了！因为一位网友“
yixuan”闲来无事，把《全宋词》拿出来“捣鼓”，算出了其中的99个高频词汇。熟记
这些高频词，你就可以随性所欲进行创作了！你还可以用“无序”的数字来创造一首“
美妙绝伦”的宋词，圆周率也可以哦！
简化宋词就是“东风何处在人间”
署名为“yixuan”的网友在个人博客里写道：“突然想看看宋词里面什么样的意象是最
常见的，比如可以做个频率分析什么的。当然文本挖掘需要分词，我没法在其中花太多
时间，于是想出了一个土办法。宋词的句子都很短，如果穷举可能的字的组合的话并不... 阅读全帖

h****n
发帖数: 101

来自主题: CS版 - 急啊！应聘一个职位，对方发了一堆题

没啥时间了，买买提的诸位能帮着一起看看吗？谢了先orz
上题了我----------------------------
假设要开发一个web application，用户能够用它来比较不同供应商的货品（比方
Amazon, Ebay）。在用户搜货品名称或者选择了一个分类以后，所有相关的货品以货品
为单位（组）列出所有的供货商，以及报价。
问题：
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了（比方Amazon中所有的书）
3.怎么保证在不同数据源中同样货品的辨识问题，你准备用怎样的辨识过程
4.怎么量化辨识过程的质量，你用的辨识过程大概能提供怎样的质量，这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的货品，进行分类，这个往往分类并不完全相同。怎么能够自动
的从这些分类树中导出一个（你的）混合的分类树
7.说下你计划的结构，哪些是要实时运行，哪些不是，你的结构有何优缺点
问题较多，希望得到有经验的朋友帮助！！谢谢先

K****n
发帖数: 5970

来自主题: CS版 - 急啊！应聘一个职位，对方发了一堆题

我实在是没有经验哈，只在这种网站做过小卒几个月，看过波士的老code。你批判地看：
问题：
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
这个很多，最一般的方法就是把供应商的query html破解一下，找若干代理服务器，
send
query， download html，parse html。如果你和供应商有contract，可能访问一些底
层的
layer，如果得到xml，自然是更方便。
2.怎么保证某个数据源中的@所有@物品都被下载了（比方Amazon中所有的书）
wokao，怎么可能保证呢。你必须了解对方的数据结构，否则的话就要仔细分析对方网
页的各种可能
的情况，比如如何在query中specify每页列出的物品数量啊，然后怎么翻页啊，之类的。
3.怎么保证在不同数据源中同样货品的辨识问题，你准备用怎样的辨识过程
真tmd难，关键字matching吧，然后可以把同义关键字放在一起。。。至于哪些是同义
关键字，倒
是可以去amazon, google shopping, bing shopping, yahoo shopping去scrape好多
商

h****n
发帖数: 101

来自主题: Database版 - 急啊！应聘一个职位，对方发了一堆题 (转载)

病急乱投医了，各位database的看官多担待啊
【以下文字转载自 CS 讨论区】
发信人: hadmin (hadmin), 信区: CS
标题: 急啊！应聘一个职位，对方发了一堆题
发信站: BBS 未名空间站 (Fri Oct 16 17:31:30 2009, 美东)
没啥时间了，买买提的诸位能帮着一起看看吗？谢了先orz
上题了我----------------------------
假设要开发一个web application，用户能够用它来比较不同供应商的货品（比方
Amazon, Ebay）。在用户搜货品名称或者选择了一个分类以后，所有相关的货品以货品
为单位（组）列出所有的供货商，以及报价。
问题：
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了（比方Amazon中所有的书）
3.怎么保证在不同数据源中同样货品的辨识问题，你准备用怎样的辨识过程
4.怎么量化辨识过程的质量，你用的辨识过程大概能提供怎样的质量，这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的

b******g
发帖数: 81

来自主题: DotNet版 - sql server reporting services 的publish问题

在SQL Server Management Studio里，点Connect键，选Reporting Service，输入用户
名，密码，
连接后，找到你published报表（应该在Home下或Home的子目录下），
展开报表，在报表的Datasource下，应该有报表的数据源，问题就在数据源上，
双击这个数据源，估计你选了The credentials supplied by user running the
report
如果你的报表是通用权限，那么选用户名密码存在Server就行了。

h****n
发帖数: 101

来自主题: EmergingNetworking版 - 急啊！应聘一个职位，对方发了一堆题 (转载)

最后转载一下 orz
【以下文字转载自 CS 讨论区】
发信人: hadmin (hadmin), 信区: CS
标题: 急啊！应聘一个职位，对方发了一堆题
发信站: BBS 未名空间站 (Fri Oct 16 17:31:30 2009, 美东)
没啥时间了，买买提的诸位能帮着一起看看吗？谢了先orz
上题了我----------------------------
假设要开发一个web application，用户能够用它来比较不同供应商的货品（比方
Amazon, Ebay）。在用户搜货品名称或者选择了一个分类以后，所有相关的货品以货品
为单位（组）列出所有的供货商，以及报价。
问题：
1.有哪些访问供应商(Amazon,Ebay, etc.)数据源的方法
2.怎么保证某个数据源中的@所有@物品都被下载了（比方Amazon中所有的书）
3.怎么保证在不同数据源中同样货品的辨识问题，你准备用怎样的辨识过程
4.怎么量化辨识过程的质量，你用的辨识过程大概能提供怎样的质量，这个过程有哪些
问题
5.运行辨识过程所需的用时估计
6.供货商往往对所提供的货品，进行分类，这个往往分类

s*****n
发帖数: 134

来自主题: Linux版 - 文科生泡妞利器被码工摧毁了 (转载)

f****4
发帖数: 1359

来自主题: Programming版 - 从工程角度再比较一下春运火车票的2个方案

说一下个人背景，各位自己判断是否有必要浪费时间看我码的字。
码完了比较之后码一点个人感想，有兴趣的就看，没兴趣的跳过，谢谢。
国内6年做项目的经历，做过通用财务（就是实现），石化行业固定资产（需求不是我
做的，别的归我负责的），服装行业预算和政府的财政预算（标书不是我写的，剩下的
我都做了）。
先说一下工程角度比较什么。需求分析，技术方案可行性，项目实现难度，项目风险控
制，工期和预算。
需求分析放这不伦不类，但需求是基础，基于需求给方案。你得了解用户想要个什么玩
意，哪些是必须实现的，哪些是可以讨价还价的。你学过的软件工程，课本上说的教条
实际行不通。国内的需求，更像agile开发过程。签了合同，用户想改需求就改了。你
就是交货，客户签字了，加个功能就加了。
工期和预算，因为之前就讨论2个方案的技术可行性，这2块没怎么提.但魏老师的方案
，主要的主机实现，是黑盒，不能堆人上去，很可能因为这一块拖累整个工期。
goodbug的方案，工期上压力还可以，因为通用方案，堆人上去。但后果也很明显：人
工上去了，人的素质总有高低，最后得靠QA把关。
技术方案可行性，之前的讨论就集中在这一块。
魏... 阅读全帖

f****4
发帖数: 1359

来自主题: Programming版 - 从工程角度再比较一下春运火车票的2个方案

首先，一个设计方案肯定是有取舍的。这点你要是不承认，我就没法和你讲了。我只能
说，就算我相信你的方案每个方面都是最优的，但我认为你最优的过程是要增加系统复
杂度的，我还会认为这块地方实施有风险。
他们2个人其实多少都有提怎么处理票。我懒得去推了。
你去看我分析魏老师的方案的时候，新增车次，那个，我明确提到，牺牲时间，花一个
小时去导入。导入，简单吧，导入不成，再来一次。单机操作内存的事情。哪怕你U盘
拷贝失败，再来一次就是了。我还放了个假设在那，不在线兼容现有的票务系统，不然
讨论起来更复杂了。
分段票那块，魏老师的方案上主机。goodbug也认为主机能做的，只是他认为这么低的
成本的主机处理不了这么高的throughput。你看我那提的，90+CPUs，36G的server，5
万美金。我认为就是要实现，也得加点预算。不然讨论不下去了。然后就是单线程，多
线程实现的区别了。单线程，不需要加预算，好处内存不用加锁。多线程，要加预算，
坏处实现复杂一点。但是一个买票的，C++，单机的程序，实现起来你觉得这个风险大
么？？？
我看到后面goodbug的回帖，我知道他还是没明白他到底差了哪一... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - ES怎么玩？

也许我翻得不好，我的意思就是join。RDBMS常见性能问题之一就是在大表上的full
table join，另外在SOA上往往多个服务多个数据源，数据源本身可以是RDBMS也可以是
NoSQL。ES存储的是Json，这就可以让你整合多个数据源，根据下游用户的需求产生一
个可搜索的rich data set。相当是一个可搜索的缓存。

e***m
发帖数: 92

来自主题: Programming版 - 设计一个大计算量的并行架构

这是一个我碰到的实际问题，想和大家交流一下怎样设计软件架构.
有几万个数据源会持续地生成数据，我需要对每两个数据源之间做数学建模，建模需要
很多cpu cycle。随着新的数据的不断产生，建模要周期性的重复进行，建模的结果集
中存在一个数据库里。这个应用对latency要求比较高，而且数据源可能还会增加，自
然而然，建模和要用到的数据必须分布式的进行。
我不太想用Hadoop, storm,spark等通用的parallel computing框架，而是倾向于用比
较低层的parallel框架（比如vert.x,akka,finagle等）搭一个专门解决这个问题的架
构。请问大家有什么可推荐。

e***m
发帖数: 92

来自主题: Programming版 - 设计一个大计算量的并行架构

谢谢大家的回复。
虽然建模要周期性的重复进行，但每次建完模，就需要立即知道模型以决定系统是不是
正常，所以对latency的要求很高。这可以被看作是一个实时监控系统。
相对于计算量来说，数据量并不大。因为是每两个数据源之间要做一次建模。如果有N
个数据源的话，就有N^2个建模。
我确实需要一个司令部来把数据源分发到不同的机器上，而且还要收集计算结果。
不太想用SPARK,因为这个问题里并没有太多的iteration，也没有什么中间变量要缓存
。SPARK可能不合适。当然，我没实战用过SPARK,不知对不对。另外，我一直觉得这个
问题很具体，对性能要求很高，不用SPARK而是直接从底层实现可能会更优化一些。

t*****a
发帖数: 459

来自主题: Statistics版 - 有意思的model选择

你们需要解决的问题是什么呢？年龄和性别，是比较2个数据源涵盖的年龄组和性别比
例是否相似吗？如果是这个目的，我觉得不需要考虑两个数据源包含了多少和哪些共同
的病人，就是简单比较。
Claim number是类似diagnostic code的东西吗？那么对这个的比较目的是什么呢？是
看对某些diagnoses的涵盖比例是否相似吗？还是看两个数据源对同样的病人是否给出
一致的diagnosis信息？

s****h
发帖数: 3979

来自主题: DataSciences版 - 如何用不同来源的Obs来fit 一个 Dist.

这个“想把这些数据都pool 在一起 fit 一个distribution”实在是太扯了，只能用
mixed model.
瞎说一下：
可以假设不同数据源的data都是相同类型的distribution，不同的只是参数。
参数可以用mean，std啥的来估计。
主要问题是找分布类型。
每个数据源的数据，你可以试试fit distribution。找出几种fit得比较好得分布做候
选。
对于每种后选分布，根据参数来fit所有数据源，看看那个最好。
最后，如果相同地点，相同年代的数据参数类似，那就更好了，可以justify你这个方
法。

k**i
发帖数: 10191

来自主题: USANews版 - 长期失业者福利到期，民主党又HIGH了？

这数据太散。不好找。当时找的都找不到了。而且奥傻执政后领取福利的人急剧增加，
所以以下给的也就是个参考。我前面提到的是另一个数据源，还包括医疗等等，数据源
找不到了。
这是2009领食物票的数据：http://www.census.gov/compendia/statab/2012/tables/12s0572.pdf
2009年934千亚裔领食物票，约占亚裔人口6%；白人有10586千，约占白人人口的5%。黑
人7393，约占黑人人口18%。西裔5103，约占西裔人口10%。
另外这个表格有22%的领食物票的未透露种族或者为双种族，因此上面这个也就是估算。
即使如此，中国人拿福利比例最大肯定是拍脑袋拍出来的。

r*********t
发帖数: 4911

来自主题: USANews版 - VAT+UBI是劫富济贫，名副其实。

你先等会吧。你的数据和我的冲突很大。你看看我手中的数据
top 10%明明交了总税收的70%。请你提供你的数据源，然后我们可以对比政府的官方数
据，看谁的数据源有问题。
Taxpayers belonging to America’s top 10 percent of earners filed more than
14 million returns in 2016. This group reported adjusted gross income of
more than $4.7 trillion.
People belonging to this group paid more than $1 trillion, collectively, in
income taxes. Their share of total income taxes paid was about 69 percent.
http://www.foxbusiness.com/personal-finance/heres-how-much-wealthy-americans-pay-in-taxes

l*******s
发帖数: 1258

来自主题: StartUp版 - 刚做的美食数据挖掘应用，web和Android版，多谢捧场！

Thx
关于这两个问题：
1.现在数据只来自于FourSquare，确实不够用。正在试图把其他数据源整合进来，比如
Google Places和facebook等。至于让用户自行上传数据，当时确实考虑到用户没动力
，所以也就没做。
2.增加top的饭菜名单正在开发中，会在后续版本中推出。不过还是回到了前面的问题
，就是数据源不够用。解决了第一个，再来对付这个。

l*******s
发帖数: 1258

来自主题: StartUp版 - 刚做的美食数据挖掘应用，web和Android版，多谢捧场！

y****o
发帖数: 100

来自主题: Immigration版 - EB1-B PP I-140 批了

一直在自己准备材料准备搞1A，材料基本差不多的时候刚好公司也同意办1B就从了。
140 PP 3月8号USPIS立案，12号支票兑现，14号状态成批准。感谢版上提供帮助的朋友。
背景
CS
5封独立信，2封导师信，美，加，中，日，西班牙，荷兰
12篇文章，6个1作，186个引用。11英文1中文。好、烂、会议、杂志都有。
30个reviews，好、烂、会议、杂志都有。
申了4样：contribution，reviews，publications和 Published work in
professional publications written by others about Dr. X's work
律师是公司用的律师公司的老美和他的老美助手。
Case发到了TX中心，
总结几点：
1.推荐信不需要大牛，独立加广泛地理分布更重要。
2.文章数、引用数直接打印独立数据源的数据，比如Google Scholar上的统计表。我只
用了Google Scholar的东西。
3.引用只需要给出list，不需要提供这些文章的abstract或者全文。但这个list一定要
从独立数据源提供。比如... 阅读全帖

A********t
发帖数: 508

来自主题: astrology版 - 要看盘的同学可以用星版公共ID（见内）

请帮忙看看事业和财运，具体时辰不是很确定，希望贴图成功,谢谢！
★ 占星之门星盘查询结果 ★

上升：水瓶座
太陽：双鱼座 / <
a href="http://cn.astrodoor.cc/exp/sun/house1.jsp" target="_blank" title="太阳落入第1宫(命宫)">第1宫(命宫)
月亮：天秤座 / http://cn.astrodoor.cc/exp/moon/house8.jsp" target="_blank" title="月亮落入第8宫(疾厄宫)">第8宫(疾厄宫)
水星：双鱼座 / http://cn.astrodoor.cc/exp/mercury/house1.jsp" target="_blank" title="水星落入第1宫(命宫)">第1宫(命宫)
金星：双鱼座 / http://cn.astrodoor.cc/exp/venus/house2.jsp" targ... 阅读全帖

A********t
发帖数: 508

来自主题: astrology版 - 要看盘的同学可以用星版公共ID（见内）

请帮忙看看事业和财运，具体时辰不是很确定，希望贴图成功,谢谢！
★ 占星之门星盘查询结果 ★

上升：水瓶座
太陽：双鱼座 / <
a href="http://cn.astrodoor.cc/exp/sun/house1.jsp" target="_blank" title="太阳落入第1宫(命宫)">第1宫(命宫)
月亮：天秤座 / http://cn.astrodoor.cc/exp/moon/house8.jsp" target="_blank" title="月亮落入第8宫(疾厄宫)">第8宫(疾厄宫)
水星：双鱼座 / http://cn.astrodoor.cc/exp/mercury/house1.jsp" target="_blank" title="水星落入第1宫(命宫)">第1宫(命宫)
金星：双鱼座 / http://cn.astrodoor.cc/exp/venus/house2.jsp" targ... 阅读全帖

H**7
发帖数: 8624

来自主题: HuNan版 - 全美人口加权平均气温（原创）

程序功能待改进：
1）采样率提高一倍；
2）数据源或数据通道发生故障时，仍然定时刷新纪录文件，使用特别符号标志数据无
效；
3）数据源或数据通道发生故障时，发送提示信息至设定邮箱；
4）每天零点前自动计算日平均气温一次；
5）从 2011 年 1 月 1 日为第一天，每七天自动计算周平均气温一次，计算时间紧
随第七天日平均气温计算之后。

l********a
发帖数: 1154

来自主题: CS版 - 菜鸟求帮助 (转载)

这是你数据源有问题
检查连接字符串和数据源的配置
检查MDAC, JET and ADO是否正确安装

w**********k
发帖数: 1135

来自主题: Database版 - asp装好之后为什么不能 createobject

估计是数据源的问题，你创造数据源了吗？

r********n
发帖数: 7441

来自主题: Database版 - windows下mysql odbc 设置问题

mysql server 在本地机器上， windows 7 操作系统
重新装机后，mysql数据源怎么都找不到了，请问咋回事？
就是在windows下ODBC设置里面，我已经下载安装了新的mysql odbc driver
启动mysql后，在odbc中无法找到本地mysql数据库（下拉列表无法自动列出mysql中已
经装载的数据库），请问是咋回事？其他安装数据源(access 和 sql server)都没问题

T*******x
发帖数: 8565

来自主题: Database版 - 一个关于big data 系统架构的设计问题

你们最后自己做data pipeline，也就是说你们自己处理数据源的log来做CDC的？比如
说你们数据源有SQL server，数据库的变化有t-log，你们是自己处理t-log来做CDC的？

b****u
发帖数: 1130

来自主题: Database版 - 一个关于big data 系统架构的设计问题

我们暂时还不用kafka，因为不要求做实时同步。其实就是一个简单的数据拷贝，没必
要那么麻烦。Spark 有一个很有用的东西dataframe，它可以从数据源读取表格然后直
接存到目标数据库中，数据源可以是一个文件，非常方便。
我的原则是越简单越好，能用已有的轮子最好。
不要对原始数据库的东西做任何改变，当然为了方便，也可以加几个view table。这个
好处是，以后原始数据库有一些大的变化，你只要调整重写viewtable 就可以了，
pipeline是不用变化的，有点像interface。
现在的关键是你要把数据放到什么地方。我们用redshift，它是column based，性能好
。同时还是一个rational db，和以前的系统兼容性好。

N**D
发帖数: 2885

来自主题: Programming版 - 问个有关C++ map的问题

用的是stdext::hash_multimap, 数据源会经常改动所以要重新load. 所以考虑在每次
整理数据源时候有无必要sort一下

z*******3
发帖数: 13709

来自主题: Programming版 - 为什么java要用setter和getter

不是，我在给你新例子
比楼主说的这个极端情况要广泛得多，几乎所有得server都会遇到
就是dto模式，如何防止多个线程并发修改同一个数据源的问题
这个太常见了，是个server就会用到，我前几天还在同步我自己的数据源
加上并发修改异常处理才大概算搞定

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

按照datasources分的话
一般stream api用在网络上过来的数据
比如kafka，比如video，比如etl
这些都是streaming的大户，然后配合reactive
就可以比较迅速地处理数据并反馈
一般batch和table api用在硬盘上读取出来的数据
尤其是你自己系统控制的硬盘上的数据
这种用batch或者table来稿
table针对结构比较完整，精度要求高的数据源
因为精度高，相对要求也高，要求index和transaction
很正常
batch针对结构不完整，精度要求相应可以降低的数据源
比如网页搜索，一般google就反馈给你一个最相似的网页
并不是保证百分百精确，很多时候第一个结果不是你想要的
偶尔还会出现翻了几页才找到，甚至根本找不到的情况
这种情况你只能逼近，完美是不存在滴

z****e
发帖数: 54598

来自主题: Programming版 - Palantir靠的是军方关系

你做个事情之前，不成功就一定不做了吗？
这个世界上百分百成功的事情好像是不多的
即便有，也是很cheap的
生活就像一个战场，你总会遇到你预想不到的事发生
很正常，凡事不去做，就一定不会失败
所谓雄心万丈，躺在床上
我相信的是，凡事为之，则难者亦易矣
行不行，做了自然就知道，不行又怎样？
100%成功的事不多，但是同样，100%完蛋一无所获的事情好像也不多
为什么要害怕失败？失败那么可怕？我当年学java
安装jdk都失败过n次，以至于我后来养成一种习惯
就是做一件事，第一次就成功，我就会怀疑这个是不是搞错了
困难和失败并不可怕，可怕的是你不去做，还没开始之前就被你自己吓倒了
到现在你还在纠结什么军工，我已经告诉你了，他们还有另外一条产品线
是给银行企业用的，实在不懂到底有啥好纠结他们的军工的
你是不是认为他们除了给cia用的以外，就没有产品了？
我觉得你的关注点就是个问题
没有受过java熏陶的人，就是天然的层次感不强
数据如何保存跟数据如何处理，是两个layers的事
数据保存归客户，数据处理归你的内存运算的软件
这个在j2ee上就是最原始傻瓜的三层模型，我说的一直都是中间那一层... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - Palantir靠的是军方关系

如果你想多快好省滴完成，就应该认真看看eclipse这种常用轮子
连这种轮子都不会用，谈什么多快好省？这不是搞嘛
什么都省，就是不省人工，which是最贵的东西
就拿你的那个项目来说，我当时认真看了需求
基本上一个vert.x可以解决除了核心算法以外的所有server side需求
你折腾了一堆又是php又是python又是node的，还整合了半天
你不嫌太麻烦么？看了都累
实际上我大概能够猜出一点他们在做什么了
看你还是一脸茫然的样子，给你点拨一下
我现在越来越有信心觉得他们压根没有依赖任何特定的数据集
就是一个common的api，什么数据源都可以接受
不管这个数据源是db，还是nosql，还是xml，还是txt这种纯粹混乱的符号集合
这也差不多是从structured -> unstructured的几个代表
越往unstructured偏，越需要spark这些东西，但是我想的还要更多一点
包括real time的streaming data，所以如果flink能搞定这些的话，就比较完美
能把所有数据统一到一个界面上去的话，不需要做多少特别复杂的转换
光join就足够让人看出很... 阅读全帖

s****b
发帖数: 2039

来自主题: Biology版 - 11公为什么不喜欢读paper？

好吧，我同意，花１小时和诺贝尔奖获得者聊聊是可以的，而且是应该的，如果时间允
许的话。但是聊天和广泛阅读真的并不能提高科学素养，只能告诉你＂如何提高＂科学
素养。你引用的那段话里不是讲了么，科学方法论的养成只和科学史有关，和重大发现
的数据源有关。
科学方法论的养成和科学史有关，这个好理解。
科学方法论的养成和重大发现的数据源有关，这个我不明白，有懂的人能解释一下么？

u*******m
发帖数: 3395

来自主题: EE版 - 电脑读取100个以上photodiode的电流数据，请推荐便宜的方法

测电流的方法只有几个：测磁场；测电压用欧姆法则算出；测电荷聚集造成的
电压的增高。你这2毫安的电流测试最方便的方法就是测串联电路中的电压降。
也就是测电压。
很明显你现有的是一个中央数据采集和处理机构(电脑)，多个数据源(光电
二极管)，那么现在缺的就是1对N的链接机构：几个哥们说得很清楚了：你需要
的是一个或几个multiplexer，使得中央处理器能轮流对这N个数据源采样。
既然你以前用过NI的卡，那么现在最方便的还是用NI的卡，就是需要做个分
配，比如电脑直接连接7个卡，每个卡上应该有16个通道可以采样。一共112
个通道，多余几个还可以监控供电电压和监控温度。 :)

photodiode

u*******m
发帖数: 3395

来自主题: EE版 - 电脑读取100个以上photodiode的电流数据，请推荐便宜的方法

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

大数据日报 2015-02-14
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-14/short.html
1) 【Spark SQL 数据源 API：Spark平台的统一数据接入】 by @网路冷眼
关键词：计算框架, Spark
【Spark SQL 数据源 API：Spark平台的统一数据接入】自从Spark 1.0版本的Spark
SQL问世以来，它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到
了Spark 1.2 版本，我们已经迈出了下一步，让Spark的原生资源和更多的输入源进行
整合集成。 [1]
[1] http://code.csdn.net/news/2823955
2) 【市民眼中的绿地为何没那么多？用大数据讲述城市意象】 by @市政厅官微
关键词：应用, 规划
我们可以从大数据中找到市民心中的城市意象。从城市建设用... 阅读全帖

C***i
发帖数: 486

来自主题: DataSciences版 - 如何用不同来源的Obs来fit 一个 Dist.

一个project 中的一个小环节，有个问题向各位高人请教下。问题抽象出来是，客户找
到一些历史数据（数据源=20)。因为是历史数据，而且报告地点比较离散，数据质量
很差。具体来讲，数据的样本不同，观测条件也不一致。。。大概看起来如下：
Study 1: # of obs 100, [1,2,3,...., 100]， location A, sample condition I,
etc...
Study 2: # of obs 10, [5, 7, 9,....]， location B, sample condition I, etc...
Study 3: # of obs 50, [20, 25, 30, 35, ...], ， location C, sample condition
II, etc...
客户想把这些数据都pool 在一起 fit 一个distribution. 我认为因为不同study, 样
本数量不同，不能简单的混在一起。因为一定要给出一个dist., 我的想法是:
1. 根据现有的conditions, merge 类似的数据，比如合并在同一个... 阅读全帖

X*******0
发帖数: 134

来自主题: ChinaNews版 - 谣言战概论----教你如何造谣搞乱中国,NED必备 (转载)

【以下文字转载自 Military 讨论区】
发信人: X01100110 (X01100110), 信区: Military
标题: 谣言战概论----教你如何造谣搞乱中国,NED必备
发信站: BBS 未名空间站 (Fri Oct 21 16:39:48 2011, 美东)
21世纪的垃圾桶，将躺满那些不重视造谣的国家。
——[谣言战之父、21世纪军事革新家] 本文作者于2011年
谣言战，是有组织的利用谣言，以对手的社会作为打击对象，从而最终摧毁其
社会生产力和软实力的新战争形式。在信息时代的科技条件下，在国家之间处于亚对抗
、亚冲突的国际政治背景下，谣言战必将超越热战武器成为使用范围最广、使用效率最
高的军事打击形式。率先重视谣言战的使用和防御的国家，必将在国际竞争中占得先机
。轻视谣言战的国家，则将付出社会解体的代价，进而无可逆转地走向衰落。本文提出
了谣言战的概念，论证了信息时代谣言战的可行性，回顾了历史上成功的谣言战范例，
并对现代谣言战的组织、防御、拓展等作了系统的规划。
关键词：谣言战、社会性网络服务、P2P式传播
目录
一．谣言战的原理
二... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天