由买买提看人间百态

topics

全部话题 - 话题: 统计算法
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
c*******o
发帖数: 8869
1
统计算法,和大数据,AI有关,也就是和national security有关。中国留学声和导师
做课题,不定会看到了什么。讲中文,让fbi监视不好干活了。
其实,讲中文,就是society as a whole攻击的一种形式。
W**********t
发帖数: 1764
2
看来除了中国美国各自有一套统计算法,你这又发明一种。三千亿/一千五百亿都不算
,笑死
J**S
发帖数: 25790
3
20%的人掌握了全国80%的财富, 然后全国人民的收入按全国平均值来算,这公平吗?
要看中国人穷不穷,苦不苦,累不累,你下到底层去看看, 不要瞎几把就只算全国的
平均收入。 这些统计有多少水分不说。 中国贫富极端分化,你把穷人和富人一起算啊
, 穷人就不穷了吗?
我和马云一起算家产,我和马云平均身家一千多亿,这么说,我也很有钱了?
d****o
发帖数: 32610
4
这些看quantile分布就行了
不用发明新统计量
f****e
发帖数: 24964
5
来自主题: Military版 - 死亡率应该只统计死人的
算法错误,那是死人的死亡率
不是生死已判中死亡率

:所以应该是100%
z*******4
发帖数: 285
6
来自主题: Military版 - 谁帮本千老科普一下死亡率?
https://zh.wikipedia.org/wiki/%E5%90%84%E5%9B%BD%E6%AD%BB%E4%BA%A1%E7%8E%87%
E5%88%97%E8%A1%A8
世界粗死亡率,平均是7.99,也就是每年一千人中只死8个。
但是换个角度想一想,世界平均寿命算80岁吧,一千人平均在80年内死完,平均每年要
死12.5人。
8和12.5,这两个数据有明显差别啊
一个可能是,现在地球人口整体还比较年轻,现在还处于死亡率的低谷(80年中的前40
年,随着老龄化,死亡率必然超过12.5?)
可是日本也只有9
另一个可能是,人均寿命还在增加,如果现存的这批人增加到90岁,那么平均每年死11
.1
两种可能都算上,也还是有一点差别。
这是不是因为粗死亡率的统计算法上有问题?
s******x
发帖数: 552
7
如果中国每个省派自己代表参赛,没有了名额限制,赛后再一起统计奖牌,比起EU差不
c******i
发帖数: 4091
8
侯赛因社会主义政府和后清统计菊猩猩相吸
o**y
发帖数: 3065
9
来自主题: USANews版 - 投票机作弊到底有没办法破?
索罗斯直接在后台作弊咋办?统计算法作弊咋办?
c*******o
发帖数: 8869
10
【 以下文字转载自 Military 讨论区 】
发信人: comeandgo (春困秋乏夏打盹), 信区: Military
标 题: 杜克的白女主任可引用国家安全,把场子找回来
发信站: BBS 未名空间站 (Sun Jan 27 17:54:00 2019, 美东)
统计算法,和大数据,AI有关,也就是和national security有关。中国留学声和导师
做课题,不定会看到了什么。讲中文,让fbi监视不好干活了。
其实,讲中文,就是society as a whole攻击的一种形式。
a******2
发帖数: 18
11
来自主题: Automobile版 - 车mpg的真正准确算法

因为油耗统计一般是记录喷油嘴的喷油脉冲,再乘以单位喷油量,算出实际喷油量,可
是同一个型号的每一辆车的喷油嘴每个喷油脉冲的喷油量存在误差,随着老化、积碳等
原因,也会变化,因此出厂时设置的单位喷油量的转换值很可能不准。
l*******g
发帖数: 393
12
来自主题: Faculty版 - 概率统计牛人请进
我辛苦很久的一篇single author的paper昨天被review回来了,结论是minor revision
,呵呵
不过,明摆着Referee是个非常牛的人,看出一个问题,就是说
能不能找到一个已知的广泛应用的概率分布,这个分布在计算多元分布函数(cdf)比
较快,而计算其gradient比较费功夫。如果这样,我的算法就特别有意义了,呵呵,不
假设多元函数component之间independent
我现在能想到的是多元lognormal,还有其他吗?谢谢,多多益善
d******e
发帖数: 7844
13
来自主题: Faculty版 - CS的师生为何不重视统计
你不是计算机科班的吧。
CS可比“算法+数据”大太多了。
s********y
发帖数: 58
14
来自主题: JobHunting版 - 问一个算法题
平面离散化, 每一个区域统计被覆盖的次数.
e****e
发帖数: 1885
15
来自主题: JobHunting版 - 问一个算法题
但是顶点不是floating的,这个怎么解决
另外,space的efficiency太低。
我想到的是构建hanan grid,然后基于每一个grid统计,但是这样的空间复杂度是n^2
,不知道还
有没有更好的办法
A*****i
发帖数: 3587
16
来自主题: JobHunting版 - 问个算法题4
一个trie+遍历次数统计就可以了
g******u
发帖数: 191
17
请教,如果一个码工职位表述里面就要求CS,EE,mathematics.那拿到offer的学math的
H1B申请人还需要成绩单里有好多CS的专业课吗?只学过面向对象程序设计,数据结构
算法,数据库。没学过OS,计算机体系,编译,形式语言 etc. 就会被拒吗?
d*******l
发帖数: 338
18
来自主题: JobHunting版 - 问个算法题, 关于区间 overlap的
如果要统计两两overlap的总对数,那用线段树应该能O(nlogn)出来。如果要输出所有
,那只能O(n^2)了
m**q
发帖数: 189
19
来自主题: JobHunting版 - 问个算法题, 关于区间 overlap的
这个思路不错。
感觉应该需要一些额外空间来记录start[]和end[]两个数组元素的对应关系,不过额外
空间也是O(n)的。
重复起点的问题可以在O(n)时间解决,最后扫一遍数组,减掉重复计算的值就行了。
ps:另外一种统计个数的方法是对每个区间二分查找,不用额外空间,不过就是O(nlgn)了
B******R
发帖数: 593
20
来自主题: JobHunting版 - 2011 OPT 统计与交流贴
你这个算法不对
B******R
发帖数: 593
21
来自主题: JobHunting版 - 2011 OPT 统计与交流贴
你这个算法不对
S*****B
发帖数: 404
22
来自主题: JobHunting版 - 求助一算法
Summing up the individual digits for each number from 0 to k(0<=k<=10000000)
, return how many times the most common sum occurs.
Examples: k=10 gives 2 (since 1 and 10 both sum up to 1) k=50 gives 6(since
5, 14, 23, 32, 41, 50 all sum up to 5).
因为要处理的数很大 所以肯定不能用循环来处理
我的思路是 找到最大的可能的数
比如50 最大的结果是49 -》4+9 =13
所以的出现的结果可能都是在1-13 的范围之内
分解这1-13的可能出现的结果并统计个数
又没有好的公式或者思路 比较卡壳了
或者其他的思路呢
谢谢各位大侠~
a**********2
发帖数: 340
23
来自主题: JobHunting版 - 问个算法题
画一颗后缀树,建立过程中存在的节点就将这个节点加一,不存在就创建并设为1,最
后找出最大计数路径。
其实很好理解,后缀树是字符串所有后缀的字串的集合而成的,计数就相当于统计字串
的出现频率
连续的话用就不知道怎么弄了
v***a
发帖数: 365
24
来自主题: JobHunting版 - 问个算法题
很直白吧,统计个数
这就写一个,要马上交吗?

sorted
output
m******k
发帖数: 183
25
来自主题: JobHunting版 - 2012 OPT统计与交流帖
OPT/OPT Extension: pre-OPT
center: VSC
receipt number: EAC1290XXXXXX
###########################
required start date: 9/24
###########################
receive date: 8/24
notice date: 8/28
initial review: 8/28
card production: 9/14
If asked for expedited:No.
If attached offer letter: No.
希望模板能够加一项,申请开始日期,以我个人经验,几次申请都是请求开始日期之前
一个礼拜批的。调度算法显示有一部分是 Earliest deadline first。当然肯定有例
外,不妨分享出来供大家参考。
m******k
发帖数: 183
26
来自主题: JobHunting版 - 2012 OPT统计与交流帖
OPT/OPT Extension: pre-OPT
center: VSC
receipt number: EAC1290XXXXXX
###########################
required start date: 9/24
###########################
receive date: 8/24
notice date: 8/28
initial review: 8/28
card production: 9/14
If asked for expedited:No.
If attached offer letter: No.
希望模板能够加一项,申请开始日期,以我个人经验,几次申请都是请求开始日期之前
一个礼拜批的。调度算法显示有一部分是 Earliest deadline first。当然肯定有例
外,不妨分享出来供大家参考。
m*******l
发帖数: 12782
27
人家说了不懂算法
s******n
发帖数: 3946
28
来自主题: JobHunting版 - 一个算法问题
根据userid hash分配到k台机器。每台机器上统计,排序。
然后k-way合并(用heap),得到总排名的前1000和median
v********d
发帖数: 36
29
不知道有没有统计最近几年top20 CS PhD
出来都干什么去了?如果大部分都码工了,
失败感可能会小些......
r*******n
发帖数: 3020
30
统计上来讲, 越难如果还不好,那人去那不是喜欢受虐啊
i*****e
发帖数: 5233
31
五轮那也太bt了 基本上or的就是建模 改进heuristics, 统计, 算法,sql ,case
study都有
d**e
发帖数: 6098
32
来自主题: JobHunting版 - [合集] 2012 OPT统计与交流帖
☆─────────────────────────────────────☆
zeewill126 (八点六十) 于 (Wed Feb 1 14:52:08 2012, 美东) 提到:
请大家伙按照模板更新,方便查询。
OPT/OPT Extension
center:
receipt number:
receive date:
notice date:
initial review:
card production:
If asked for expedited
=====================================
Date:
☆─────────────────────────────────────☆
zeewill126 (八点六十) 于 (Tue Feb 7 13:38:31 2012, 美东) 提到:
OPT Extension
center: CSC
receipt number: WAC12901562**
receive date: 01/13/2012
notice date: 01/17/2012
initial r... 阅读全帖
r*****d
发帖数: 727
33
本人计算化学背景,分别用C++和FORTRAN也写过一个几千行的程序。用perl写过很多小
的script,大部分是数据处理,读文件之类。会用点python。博士时候修过数据结构和
算法的课,但是现在忘得差不多了。不会MPI。不会JAVA。
我最近申请了一些programming的工作,然后竟然也拿到了电话面试。可是在面试过程
中,觉得自己基础太差。很多基本概念不知道(或者忘了)。
我试着做版面上的面试题,会做的不多,弄得很没有自信,觉得如果想走这行,是不是
真需要找个学校,修个CS的master。还是自己在家肯几个月书本。再重新投投简历。
我用本专业找工作,除了一个电面,什么都没有。对未来很没信心。所以想问问有没有
类似背景的同学能给出一些建议。我之前的师兄师姐,不是回国,就是彻底转行了。
d******l
发帖数: 98
34
楼主,IT公司面试 考算法吗?一般都问什么题目呢?

接受了offer, Eli Lilly机会都是朋友内退或者jsm会上得到的。9个onsite,去了7个
,最后两个没时间了就没去(GSK,amazon),it公司全挂,自己也许真........
y*****e
发帖数: 712
35
这题FB考过。还是记住吧。何况这个算法本身还是挺有意思的,也算是增长一下见识。
n*******t
发帖数: 44
36
来自主题: JobHunting版 - 真心求教,关于实习/第一份工作
理科,博士,还算不错的学校。科研用到不少像PCA,SSA一类的统计分析;编程方面主
要用MATLAB实现以上统计算法,也会Shell scripting。正在自学Python和Data mining
,但还刚入门。
想找与数据分析相关的实习或入门级工作(data analyst/scientist?),在实习工作中
学习相关技能。请问我现在已有的能力有可能拿到一份工作吗?如果有一个月时间,我
应该提高哪些方面或者学习哪些技能,更有助于找到一份工作?
刚开始找实习,实在是一窍不通。多谢大家赐教。
n*******t
发帖数: 44
37
来自主题: JobHunting版 - 真心求教,关于实习/第一份工作
谢谢回复。
关于编程可以再具体些吗?
我现在编程主要用matlab,矩阵运算,统计算法实现,流程控制。
我在学Python,并会用基本的数据结构和流程控制。下面应该着重提高哪些方面?
l*****a
发帖数: 14598
38
来自主题: JobHunting版 - 问一个算法题找median
这题连我都会
整数分成若干区间,统计每台机器上各个区间数目
然后找到 median所在区间
然后该区间再分成字区间。。。
o***g
发帖数: 2784
39
来自主题: JobHunting版 - 一个算法题目
这个数组按照题目是一共7个数,我们就知道这里包含的整数是1到6这个区间内的整数
将1到6这个区间分成1到3和4到6两个区间去统计各有多少个数,必然会有一个区间的数
的个数是超过3个的
y***n
发帖数: 1594
40
来自主题: JobHunting版 - 非科班学习算法+数据结构的教程?
如果是找工作要学,我觉得没必要。。
数学统计背景 其实比一般的马工好,又没有那么多的烙印。。
s*****r
发帖数: 43070
41
来自主题: JobHunting版 - Bioinformatics 女Phd转行,求建议
2最有value,network analysis和graph algorithm,那些统计算法是DS常用的
5里面的在cluster上跑程序是指distributed computing?
如果俺是面试官,重点会问2里面的东西和cluster computing。
俺觉得狠适合当data scientist,需要认真准备上面的重点,面试时候做到对答如流,
如数家珍,知道前因后果,应该差不多了。可以扩大寻找范围,弯曲的工作更多。
不适合当码农,可以补习一下数据结构,了解基本知识足矣。
B*******g
发帖数: 1593
42
这很像硬币凑数的题目啊,不过有减法,次数统计也不像数硬币那么直接,应该可以dp?
l*3
发帖数: 2279
43
我觉得你的看法和评判标准很客观。但如果让我主观臆测一下的话,我认为很显然这个
相关度是高的。就好比高考考分高的人混的平均要好一些一样。当然也可以说我没有真
正统计调查过,就没有发言权。但是我的感觉是这种显而易见的东西根本不用调查。。。
什么刷题啊考试啊竞赛啊能弄得很厉害的那类人,不见得是天才或者非常聪明。但是大
部分的天才,面对这些东西的时候就跟切菜一样。。。当然少部分怪才可能不适应这种
标准的筛选机制,但那只是很少一部分而已。。。。而且我个人认为,对那种人而言,
他们根本不在乎什么刷题竞赛的。。。
总之我的结论是,大部分能问出楼主这种问题的人,本质上还是蠢而已。。。再次强调
一下,我这里说的蠢,只是针对数学计算机逻辑而言的,和情商啊为人应变处事能力啊
都没关系。。
其实说到底,人家湾区的码农公司又不是傻子。。。该招啥人人家不知道么?。。普通
人没什么牛逼背景的,就是要先通过做几个智力题来证明自己不是傻逼,否则人家招了
你你干活不麻利怎么办?。。。
那种巨牛逼直接在学校里就能做出很好的研究成果的,也根本不用通过什么刷题面试一
轮一轮过,直接就被内推到公司的研究院了。。。而且那种人就算真... 阅读全帖
l*3
发帖数: 2279
44
高考成绩不好,最后也没做出贡献的比例更大。。。。。
我不跟没有基本统计常识和逻辑素养的人辩解这些显而易见的道理。最基本的贝叶斯得
懂吧?
given 高考成绩区间,考量一下你所谓的 “社会贡献” 去。看看是前50%的考生牛逼
还是后50%的考生牛逼。。

trace
z*******r
发帖数: 12
45
来自主题: JobHunting版 - 问道indeed面试算法题
假设有m个list,每个list有n个数,同时假设每个list中没有重复的数字。
对于merge k sorted list那种方法来说,首先用priorityqueue merge,同时poll出来
数字时统计相同的数字有多少个。所以每个数字都要进队列一次,出队列一次,
priorityqueue中只能同时有m个数字。所以这部分时间复杂度是O(m*n*log(m))。
接着为了保证输出有序,对符合要求的数字排序,假设有x数字满足要求,时间复杂度
是O(xlog(x))
如果x不是很大,那么这种方法的时间复杂度应该是O(max(m*n*log(m), xlog(x))) ~ O
(m*n*log(m))
对于楼主方法来说,把所有数字放到HashMap中,时间复杂度是O(m*n),再遍历一遍
HashMap挑出合法的数字,时间复杂度仍然不会超过O(m*n)
对于输出结果排序,时间复杂度是O(max(m*n, xlog(x))) ~ O(m*n)
对于最坏情况来说,每个数字都要输出,那么x=m*n,时间复杂度是O(m*nlog(m*n))
从时间复杂度的角度来说楼主的方法应该是要优于mer... 阅读全帖
L***s
发帖数: 1148
46
hash heap 思路算是 baseline 标准答案。就在原有的 min heap array
基础上内置一个 hash map 来标记 key 在 heap array 中的 index,
sift up/down, pop, push 每次触发 swap 的时候更新 index 即可。
如果 N >> K,为省空间一般用 min heap of size K,时间每次 O(log K);
如果 N 和 K 差不多,用 max heap of size N,全装进去好了。
股票总数 N 其实不会太大,所以两者均可。
拓展开来,像这种求 top K frequent 的问题,在 N 非常大时,
hash heap 里面那个 hash map 容易爆(虽然可以取模分布在多机)。
如果不需要准确统计变动次数,允许计数误差(高估),
其实可用一些基于概率的数据结构来替换该 hash map,
比如类似 bloom filter 的各种变种,比如下面链接提到的 CM Sketch:
http://soulmachine.gitbooks.io/system-design/content/c... 阅读全帖
e*******9
发帖数: 1028
47
搞统计算法的那些哥们, 就知道其中的奥妙.
当然, 那是保密的......
b*******i
发帖数: 594
48
我遇见过2次和楼主相同的情况。一次是$10的宝宝玩具,另一次是$60的维生素片,没
有什么不良影响。亚麻估计是有统计算法的,不定期的奖励一下经常购物的顾客。
a*****a
发帖数: 19262
49
来自主题: NextGeneration版 - 唐筛的结果出来了:(
我们还是咨询了基因专家,虽然他什么DIRECTION都没有给,不过我大概明白这种唐氏
测试的统计算法,是有很多FAKE POSITIVE的,后来跟老公商量还是算了。
w****k
发帖数: 10542
50
看看新算法的优越性在哪里。
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)