c*******o 发帖数: 8869 | 1 统计算法,和大数据,AI有关,也就是和national security有关。中国留学声和导师
做课题,不定会看到了什么。讲中文,让fbi监视不好干活了。
其实,讲中文,就是society as a whole攻击的一种形式。 |
|
W**********t 发帖数: 1764 | 2 看来除了中国美国各自有一套统计算法,你这又发明一种。三千亿/一千五百亿都不算
,笑死 |
|
J**S 发帖数: 25790 | 3 20%的人掌握了全国80%的财富, 然后全国人民的收入按全国平均值来算,这公平吗?
要看中国人穷不穷,苦不苦,累不累,你下到底层去看看, 不要瞎几把就只算全国的
平均收入。 这些统计有多少水分不说。 中国贫富极端分化,你把穷人和富人一起算啊
, 穷人就不穷了吗?
我和马云一起算家产,我和马云平均身家一千多亿,这么说,我也很有钱了? |
|
d****o 发帖数: 32610 | 4 这些看quantile分布就行了
不用发明新统计量 |
|
f****e 发帖数: 24964 | 5 算法错误,那是死人的死亡率
不是生死已判中死亡率
:所以应该是100% |
|
|
s******x 发帖数: 552 | 7 如果中国每个省派自己代表参赛,没有了名额限制,赛后再一起统计奖牌,比起EU差不
了 |
|
|
|
c*******o 发帖数: 8869 | 10 【 以下文字转载自 Military 讨论区 】
发信人: comeandgo (春困秋乏夏打盹), 信区: Military
标 题: 杜克的白女主任可引用国家安全,把场子找回来
发信站: BBS 未名空间站 (Sun Jan 27 17:54:00 2019, 美东)
统计算法,和大数据,AI有关,也就是和national security有关。中国留学声和导师
做课题,不定会看到了什么。讲中文,让fbi监视不好干活了。
其实,讲中文,就是society as a whole攻击的一种形式。 |
|
a******2 发帖数: 18 | 11
因为油耗统计一般是记录喷油嘴的喷油脉冲,再乘以单位喷油量,算出实际喷油量,可
是同一个型号的每一辆车的喷油嘴每个喷油脉冲的喷油量存在误差,随着老化、积碳等
原因,也会变化,因此出厂时设置的单位喷油量的转换值很可能不准。 |
|
l*******g 发帖数: 393 | 12 我辛苦很久的一篇single author的paper昨天被review回来了,结论是minor revision
,呵呵
不过,明摆着Referee是个非常牛的人,看出一个问题,就是说
能不能找到一个已知的广泛应用的概率分布,这个分布在计算多元分布函数(cdf)比
较快,而计算其gradient比较费功夫。如果这样,我的算法就特别有意义了,呵呵,不
假设多元函数component之间independent
我现在能想到的是多元lognormal,还有其他吗?谢谢,多多益善 |
|
d******e 发帖数: 7844 | 13 你不是计算机科班的吧。
CS可比“算法+数据”大太多了。 |
|
|
e****e 发帖数: 1885 | 15 但是顶点不是floating的,这个怎么解决
另外,space的efficiency太低。
我想到的是构建hanan grid,然后基于每一个grid统计,但是这样的空间复杂度是n^2
,不知道还
有没有更好的办法 |
|
|
g******u 发帖数: 191 | 17 请教,如果一个码工职位表述里面就要求CS,EE,mathematics.那拿到offer的学math的
H1B申请人还需要成绩单里有好多CS的专业课吗?只学过面向对象程序设计,数据结构
算法,数据库。没学过OS,计算机体系,编译,形式语言 etc. 就会被拒吗? |
|
d*******l 发帖数: 338 | 18 如果要统计两两overlap的总对数,那用线段树应该能O(nlogn)出来。如果要输出所有
,那只能O(n^2)了 |
|
m**q 发帖数: 189 | 19 这个思路不错。
感觉应该需要一些额外空间来记录start[]和end[]两个数组元素的对应关系,不过额外
空间也是O(n)的。
重复起点的问题可以在O(n)时间解决,最后扫一遍数组,减掉重复计算的值就行了。
ps:另外一种统计个数的方法是对每个区间二分查找,不用额外空间,不过就是O(nlgn)了 |
|
|
|
S*****B 发帖数: 404 | 22 来自主题: JobHunting版 - 求助一算法 Summing up the individual digits for each number from 0 to k(0<=k<=10000000)
, return how many times the most common sum occurs.
Examples: k=10 gives 2 (since 1 and 10 both sum up to 1) k=50 gives 6(since
5, 14, 23, 32, 41, 50 all sum up to 5).
因为要处理的数很大 所以肯定不能用循环来处理
我的思路是 找到最大的可能的数
比如50 最大的结果是49 -》4+9 =13
所以的出现的结果可能都是在1-13 的范围之内
分解这1-13的可能出现的结果并统计个数
又没有好的公式或者思路 比较卡壳了
或者其他的思路呢
谢谢各位大侠~ |
|
a**********2 发帖数: 340 | 23 来自主题: JobHunting版 - 问个算法题 画一颗后缀树,建立过程中存在的节点就将这个节点加一,不存在就创建并设为1,最
后找出最大计数路径。
其实很好理解,后缀树是字符串所有后缀的字串的集合而成的,计数就相当于统计字串
的出现频率
连续的话用就不知道怎么弄了 |
|
v***a 发帖数: 365 | 24 来自主题: JobHunting版 - 问个算法题 很直白吧,统计个数
这就写一个,要马上交吗?
sorted
output |
|
m******k 发帖数: 183 | 25 OPT/OPT Extension: pre-OPT
center: VSC
receipt number: EAC1290XXXXXX
###########################
required start date: 9/24
###########################
receive date: 8/24
notice date: 8/28
initial review: 8/28
card production: 9/14
If asked for expedited:No.
If attached offer letter: No.
希望模板能够加一项,申请开始日期,以我个人经验,几次申请都是请求开始日期之前
一个礼拜批的。调度算法显示有一部分是 Earliest deadline first。当然肯定有例
外,不妨分享出来供大家参考。 |
|
m******k 发帖数: 183 | 26 OPT/OPT Extension: pre-OPT
center: VSC
receipt number: EAC1290XXXXXX
###########################
required start date: 9/24
###########################
receive date: 8/24
notice date: 8/28
initial review: 8/28
card production: 9/14
If asked for expedited:No.
If attached offer letter: No.
希望模板能够加一项,申请开始日期,以我个人经验,几次申请都是请求开始日期之前
一个礼拜批的。调度算法显示有一部分是 Earliest deadline first。当然肯定有例
外,不妨分享出来供大家参考。 |
|
|
s******n 发帖数: 3946 | 28 根据userid hash分配到k台机器。每台机器上统计,排序。
然后k-way合并(用heap),得到总排名的前1000和median |
|
v********d 发帖数: 36 | 29 不知道有没有统计最近几年top20 CS PhD
出来都干什么去了?如果大部分都码工了,
失败感可能会小些...... |
|
r*******n 发帖数: 3020 | 30 统计上来讲, 越难如果还不好,那人去那不是喜欢受虐啊 |
|
i*****e 发帖数: 5233 | 31 五轮那也太bt了 基本上or的就是建模 改进heuristics, 统计, 算法,sql ,case
study都有 |
|
d**e 发帖数: 6098 | 32 ☆─────────────────────────────────────☆
zeewill126 (八点六十) 于 (Wed Feb 1 14:52:08 2012, 美东) 提到:
请大家伙按照模板更新,方便查询。
OPT/OPT Extension
center:
receipt number:
receive date:
notice date:
initial review:
card production:
If asked for expedited
=====================================
Date:
☆─────────────────────────────────────☆
zeewill126 (八点六十) 于 (Tue Feb 7 13:38:31 2012, 美东) 提到:
OPT Extension
center: CSC
receipt number: WAC12901562**
receive date: 01/13/2012
notice date: 01/17/2012
initial r... 阅读全帖 |
|
r*****d 发帖数: 727 | 33 本人计算化学背景,分别用C++和FORTRAN也写过一个几千行的程序。用perl写过很多小
的script,大部分是数据处理,读文件之类。会用点python。博士时候修过数据结构和
算法的课,但是现在忘得差不多了。不会MPI。不会JAVA。
我最近申请了一些programming的工作,然后竟然也拿到了电话面试。可是在面试过程
中,觉得自己基础太差。很多基本概念不知道(或者忘了)。
我试着做版面上的面试题,会做的不多,弄得很没有自信,觉得如果想走这行,是不是
真需要找个学校,修个CS的master。还是自己在家肯几个月书本。再重新投投简历。
我用本专业找工作,除了一个电面,什么都没有。对未来很没信心。所以想问问有没有
类似背景的同学能给出一些建议。我之前的师兄师姐,不是回国,就是彻底转行了。 |
|
d******l 发帖数: 98 | 34 楼主,IT公司面试 考算法吗?一般都问什么题目呢?
接受了offer, Eli Lilly机会都是朋友内退或者jsm会上得到的。9个onsite,去了7个
,最后两个没时间了就没去(GSK,amazon),it公司全挂,自己也许真........ |
|
y*****e 发帖数: 712 | 35 这题FB考过。还是记住吧。何况这个算法本身还是挺有意思的,也算是增长一下见识。 |
|
n*******t 发帖数: 44 | 36 理科,博士,还算不错的学校。科研用到不少像PCA,SSA一类的统计分析;编程方面主
要用MATLAB实现以上统计算法,也会Shell scripting。正在自学Python和Data mining
,但还刚入门。
想找与数据分析相关的实习或入门级工作(data analyst/scientist?),在实习工作中
学习相关技能。请问我现在已有的能力有可能拿到一份工作吗?如果有一个月时间,我
应该提高哪些方面或者学习哪些技能,更有助于找到一份工作?
刚开始找实习,实在是一窍不通。多谢大家赐教。 |
|
n*******t 发帖数: 44 | 37 谢谢回复。
关于编程可以再具体些吗?
我现在编程主要用matlab,矩阵运算,统计算法实现,流程控制。
我在学Python,并会用基本的数据结构和流程控制。下面应该着重提高哪些方面? |
|
l*****a 发帖数: 14598 | 38 这题连我都会
整数分成若干区间,统计每台机器上各个区间数目
然后找到 median所在区间
然后该区间再分成字区间。。。 |
|
o***g 发帖数: 2784 | 39 这个数组按照题目是一共7个数,我们就知道这里包含的整数是1到6这个区间内的整数
将1到6这个区间分成1到3和4到6两个区间去统计各有多少个数,必然会有一个区间的数
的个数是超过3个的 |
|
y***n 发帖数: 1594 | 40 如果是找工作要学,我觉得没必要。。
数学统计背景 其实比一般的马工好,又没有那么多的烙印。。 |
|
s*****r 发帖数: 43070 | 41 2最有value,network analysis和graph algorithm,那些统计算法是DS常用的
5里面的在cluster上跑程序是指distributed computing?
如果俺是面试官,重点会问2里面的东西和cluster computing。
俺觉得狠适合当data scientist,需要认真准备上面的重点,面试时候做到对答如流,
如数家珍,知道前因后果,应该差不多了。可以扩大寻找范围,弯曲的工作更多。
不适合当码农,可以补习一下数据结构,了解基本知识足矣。 |
|
B*******g 发帖数: 1593 | 42 这很像硬币凑数的题目啊,不过有减法,次数统计也不像数硬币那么直接,应该可以dp? |
|
l*3 发帖数: 2279 | 43 我觉得你的看法和评判标准很客观。但如果让我主观臆测一下的话,我认为很显然这个
相关度是高的。就好比高考考分高的人混的平均要好一些一样。当然也可以说我没有真
正统计调查过,就没有发言权。但是我的感觉是这种显而易见的东西根本不用调查。。。
什么刷题啊考试啊竞赛啊能弄得很厉害的那类人,不见得是天才或者非常聪明。但是大
部分的天才,面对这些东西的时候就跟切菜一样。。。当然少部分怪才可能不适应这种
标准的筛选机制,但那只是很少一部分而已。。。。而且我个人认为,对那种人而言,
他们根本不在乎什么刷题竞赛的。。。
总之我的结论是,大部分能问出楼主这种问题的人,本质上还是蠢而已。。。再次强调
一下,我这里说的蠢,只是针对数学计算机逻辑而言的,和情商啊为人应变处事能力啊
都没关系。。
其实说到底,人家湾区的码农公司又不是傻子。。。该招啥人人家不知道么?。。普通
人没什么牛逼背景的,就是要先通过做几个智力题来证明自己不是傻逼,否则人家招了
你你干活不麻利怎么办?。。。
那种巨牛逼直接在学校里就能做出很好的研究成果的,也根本不用通过什么刷题面试一
轮一轮过,直接就被内推到公司的研究院了。。。而且那种人就算真... 阅读全帖 |
|
l*3 发帖数: 2279 | 44 高考成绩不好,最后也没做出贡献的比例更大。。。。。
我不跟没有基本统计常识和逻辑素养的人辩解这些显而易见的道理。最基本的贝叶斯得
懂吧?
given 高考成绩区间,考量一下你所谓的 “社会贡献” 去。看看是前50%的考生牛逼
还是后50%的考生牛逼。。
trace |
|
z*******r 发帖数: 12 | 45 假设有m个list,每个list有n个数,同时假设每个list中没有重复的数字。
对于merge k sorted list那种方法来说,首先用priorityqueue merge,同时poll出来
数字时统计相同的数字有多少个。所以每个数字都要进队列一次,出队列一次,
priorityqueue中只能同时有m个数字。所以这部分时间复杂度是O(m*n*log(m))。
接着为了保证输出有序,对符合要求的数字排序,假设有x数字满足要求,时间复杂度
是O(xlog(x))
如果x不是很大,那么这种方法的时间复杂度应该是O(max(m*n*log(m), xlog(x))) ~ O
(m*n*log(m))
对于楼主方法来说,把所有数字放到HashMap中,时间复杂度是O(m*n),再遍历一遍
HashMap挑出合法的数字,时间复杂度仍然不会超过O(m*n)
对于输出结果排序,时间复杂度是O(max(m*n, xlog(x))) ~ O(m*n)
对于最坏情况来说,每个数字都要输出,那么x=m*n,时间复杂度是O(m*nlog(m*n))
从时间复杂度的角度来说楼主的方法应该是要优于mer... 阅读全帖 |
|
L***s 发帖数: 1148 | 46 hash heap 思路算是 baseline 标准答案。就在原有的 min heap array
基础上内置一个 hash map 来标记 key 在 heap array 中的 index,
sift up/down, pop, push 每次触发 swap 的时候更新 index 即可。
如果 N >> K,为省空间一般用 min heap of size K,时间每次 O(log K);
如果 N 和 K 差不多,用 max heap of size N,全装进去好了。
股票总数 N 其实不会太大,所以两者均可。
拓展开来,像这种求 top K frequent 的问题,在 N 非常大时,
hash heap 里面那个 hash map 容易爆(虽然可以取模分布在多机)。
如果不需要准确统计变动次数,允许计数误差(高估),
其实可用一些基于概率的数据结构来替换该 hash map,
比如类似 bloom filter 的各种变种,比如下面链接提到的 CM Sketch:
http://soulmachine.gitbooks.io/system-design/content/c... 阅读全帖 |
|
e*******9 发帖数: 1028 | 47 搞统计算法的那些哥们, 就知道其中的奥妙.
当然, 那是保密的...... |
|
b*******i 发帖数: 594 | 48 我遇见过2次和楼主相同的情况。一次是$10的宝宝玩具,另一次是$60的维生素片,没
有什么不良影响。亚麻估计是有统计算法的,不定期的奖励一下经常购物的顾客。 |
|
a*****a 发帖数: 19262 | 49 我们还是咨询了基因专家,虽然他什么DIRECTION都没有给,不过我大概明白这种唐氏
测试的统计算法,是有很多FAKE POSITIVE的,后来跟老公商量还是算了。 |
|
|