第6页 - 关于统计算法的讨论汇总 - 话题女王

全部话题 - 话题: 统计算法

c*******o
发帖数: 8869

来自主题: Military版 - 杜克的白女主任可引用国家安全，把场子找回来

统计算法，和大数据，AI有关，也就是和national security有关。中国留学声和导师
做课题，不定会看到了什么。讲中文，让fbi监视不好干活了。
其实，讲中文，就是society as a whole攻击的一种形式。

W**********t
发帖数: 1764

来自主题: Military版 - 看来共产党已经知道美国经济不行了

看来除了中国美国各自有一套统计算法，你这又发明一种。三千亿/一千五百亿都不算
，笑死

J**S
发帖数: 25790

来自主题: Military版 - 中国政府的国民平均收入算法有很大的迷惑性

20%的人掌握了全国80%的财富，然后全国人民的收入按全国平均值来算，这公平吗？
要看中国人穷不穷，苦不苦，累不累，你下到底层去看看，不要瞎几把就只算全国的
平均收入。这些统计有多少水分不说。中国贫富极端分化，你把穷人和富人一起算啊
，穷人就不穷了吗？
我和马云一起算家产，我和马云平均身家一千多亿，这么说，我也很有钱了？

d****o
发帖数: 32610

来自主题: Military版 - 中国政府的国民平均收入算法有很大的迷惑性

这些看quantile分布就行了
不用发明新统计量

f****e
发帖数: 24964

来自主题: Military版 - 死亡率应该只统计死人的

算法错误，那是死人的死亡率
不是生死已判中死亡率

：所以应该是100%

z*******4
发帖数: 285

来自主题: Military版 - 谁帮本千老科普一下死亡率？

https://zh.wikipedia.org/wiki/%E5%90%84%E5%9B%BD%E6%AD%BB%E4%BA%A1%E7%8E%87%
E5%88%97%E8%A1%A8
世界粗死亡率，平均是7.99，也就是每年一千人中只死8个。
但是换个角度想一想，世界平均寿命算80岁吧，一千人平均在80年内死完，平均每年要
死12.5人。
8和12.5，这两个数据有明显差别啊
一个可能是，现在地球人口整体还比较年轻，现在还处于死亡率的低谷（80年中的前40
年，随着老龄化，死亡率必然超过12.5？）
可是日本也只有9
另一个可能是，人均寿命还在增加，如果现存的这批人增加到90岁，那么平均每年死11
.1
两种可能都算上，也还是有一点差别。
这是不是因为粗死亡率的统计算法上有问题？

s******x
发帖数: 552

来自主题: Olympics版 - 金牌榜最牛逼的算法来了，不服不行

如果中国每个省派自己代表参赛，没有了名额限制，赛后再一起统计奖牌，比起EU差不
了

c******i
发帖数: 4091

来自主题: USANews版 - 为表现自己未衰落美国发明GDP新算法2013-05-06 12:11:26 (转载)

侯赛因社会主义政府和后清统计菊猩猩相吸

o**y
发帖数: 3065

来自主题: USANews版 - 投票机作弊到底有没办法破？

索罗斯直接在后台作弊咋办？统计算法作弊咋办？

c*******o
发帖数: 8869

来自主题: USANews版 - 杜克的白女主任可引用国家安全，把场子找回来 (转载)

【以下文字转载自 Military 讨论区】
发信人: comeandgo (春困秋乏夏打盹), 信区: Military
标题: 杜克的白女主任可引用国家安全，把场子找回来
发信站: BBS 未名空间站 (Sun Jan 27 17:54:00 2019, 美东)
统计算法，和大数据，AI有关，也就是和national security有关。中国留学声和导师
做课题，不定会看到了什么。讲中文，让fbi监视不好干活了。
其实，讲中文，就是society as a whole攻击的一种形式。

a******2
发帖数: 18

来自主题: Automobile版 - 车mpg的真正准确算法

因为油耗统计一般是记录喷油嘴的喷油脉冲，再乘以单位喷油量，算出实际喷油量，可
是同一个型号的每一辆车的喷油嘴每个喷油脉冲的喷油量存在误差，随着老化、积碳等
原因，也会变化，因此出厂时设置的单位喷油量的转换值很可能不准。

l*******g
发帖数: 393

来自主题: Faculty版 - 概率统计牛人请进

我辛苦很久的一篇single author的paper昨天被review回来了，结论是minor revision
，呵呵
不过，明摆着Referee是个非常牛的人，看出一个问题，就是说
能不能找到一个已知的广泛应用的概率分布，这个分布在计算多元分布函数（cdf）比
较快，而计算其gradient比较费功夫。如果这样，我的算法就特别有意义了，呵呵，不
假设多元函数component之间independent
我现在能想到的是多元lognormal，还有其他吗？谢谢，多多益善

d******e
发帖数: 7844

来自主题: Faculty版 - CS的师生为何不重视统计

你不是计算机科班的吧。
CS可比“算法+数据”大太多了。

s********y
发帖数: 58

来自主题: JobHunting版 - 问一个算法题

平面离散化, 每一个区域统计被覆盖的次数.

e****e
发帖数: 1885

来自主题: JobHunting版 - 问一个算法题

但是顶点不是floating的，这个怎么解决
另外，space的efficiency太低。
我想到的是构建hanan grid，然后基于每一个grid统计，但是这样的空间复杂度是n^2
，不知道还
有没有更好的办法

A*****i
发帖数: 3587

来自主题: JobHunting版 - 问个算法题4

一个trie+遍历次数统计就可以了

g******u
发帖数: 191

来自主题: JobHunting版 - 码工只能CS毕业才能做？EE、统计、数学、工程申请全部被拒？

请教，如果一个码工职位表述里面就要求CS，EE,mathematics.那拿到offer的学math的
H1B申请人还需要成绩单里有好多CS的专业课吗？只学过面向对象程序设计，数据结构
算法，数据库。没学过OS，计算机体系，编译，形式语言 etc. 就会被拒吗？

d*******l
发帖数: 338

来自主题: JobHunting版 - 问个算法题，关于区间 overlap的

如果要统计两两overlap的总对数，那用线段树应该能O(nlogn)出来。如果要输出所有
，那只能O(n^2)了

m**q
发帖数: 189

来自主题: JobHunting版 - 问个算法题，关于区间 overlap的

这个思路不错。
感觉应该需要一些额外空间来记录start[]和end[]两个数组元素的对应关系，不过额外
空间也是O(n)的。
重复起点的问题可以在O(n)时间解决，最后扫一遍数组，减掉重复计算的值就行了。
ps:另外一种统计个数的方法是对每个区间二分查找，不用额外空间，不过就是O(nlgn)了

B******R
发帖数: 593

来自主题: JobHunting版 - 2011 OPT 统计与交流贴

你这个算法不对

B******R
发帖数: 593

来自主题: JobHunting版 - 2011 OPT 统计与交流贴

你这个算法不对

S*****B
发帖数: 404

来自主题: JobHunting版 - 求助一算法

Summing up the individual digits for each number from 0 to k(0<=k<=10000000)
, return how many times the most common sum occurs.
Examples: k=10 gives 2 (since 1 and 10 both sum up to 1) k=50 gives 6(since
5, 14, 23, 32, 41, 50 all sum up to 5).
因为要处理的数很大所以肯定不能用循环来处理
我的思路是找到最大的可能的数
比如50 最大的结果是49 -》4+9 =13
所以的出现的结果可能都是在1-13 的范围之内
分解这1-13的可能出现的结果并统计个数
又没有好的公式或者思路比较卡壳了
或者其他的思路呢
谢谢各位大侠~

a**********2
发帖数: 340

来自主题: JobHunting版 - 问个算法题

画一颗后缀树，建立过程中存在的节点就将这个节点加一，不存在就创建并设为1，最
后找出最大计数路径。
其实很好理解，后缀树是字符串所有后缀的字串的集合而成的，计数就相当于统计字串
的出现频率
连续的话用就不知道怎么弄了

v***a
发帖数: 365

来自主题: JobHunting版 - 问个算法题

很直白吧，统计个数
这就写一个，要马上交吗？

sorted
output

m******k
发帖数: 183

来自主题: JobHunting版 - 2012 OPT统计与交流帖

OPT/OPT Extension: pre-OPT
center: VSC
receipt number: EAC1290XXXXXX
###########################
required start date: 9/24
###########################
receive date: 8/24
notice date: 8/28
initial review: 8/28
card production: 9/14
If asked for expedited:No.
If attached offer letter: No.
希望模板能够加一项，申请开始日期，以我个人经验，几次申请都是请求开始日期之前
一个礼拜批的。调度算法显示有一部分是　Earliest deadline first。当然肯定有例
外，不妨分享出来供大家参考。

m******k
发帖数: 183

来自主题: JobHunting版 - 2012 OPT统计与交流帖

m*******l
发帖数: 12782

来自主题: JobHunting版 - 统计专业,会C,想做数据分析,求职业规划.

人家说了不懂算法

s******n
发帖数: 3946

来自主题: JobHunting版 - 一个算法问题

根据userid hash分配到k台机器。每台机器上统计，排序。
然后k-way合并(用heap)，得到总排名的前1000和median

v********d
发帖数: 36

来自主题: JobHunting版 - CS PhD读出来还练算法找码工是不是很失败

不知道有没有统计最近几年top20 CS PhD
出来都干什么去了？如果大部分都码工了，
失败感可能会小些......

r*******n
发帖数: 3020

来自主题: JobHunting版 - CS PhD读出来还练算法找码工是不是很失败

统计上来讲，越难如果还不好，那人去那不是喜欢受虐啊

i*****e
发帖数: 5233

来自主题: JobHunting版 - Amazon Operations research scientist第一轮面试怎么准备?

五轮那也太bt了基本上or的就是建模改进heuristics，统计，算法，sql ，case
study都有

d**e
发帖数: 6098

来自主题: JobHunting版 - [合集] 2012 OPT统计与交流帖

☆─────────────────────────────────────☆
zeewill126 (八点六十) 于 (Wed Feb 1 14:52:08 2012, 美东) 提到:
请大家伙按照模板更新，方便查询。
OPT/OPT Extension
center:
receipt number:
receive date:
notice date:
initial review:
card production:
If asked for expedited
=====================================
Date:
☆─────────────────────────────────────☆
zeewill126 (八点六十) 于 (Tue Feb 7 13:38:31 2012, 美东) 提到:
OPT Extension
center: CSC
receipt number: WAC12901562**
receive date: 01/13/2012
notice date: 01/17/2012
initial r... 阅读全帖

r*****d
发帖数: 727

来自主题: JobHunting版 - 还是老话题，版上CS或者统计大牛多，想问问转行的问题。

本人计算化学背景，分别用C++和FORTRAN也写过一个几千行的程序。用perl写过很多小
的script，大部分是数据处理，读文件之类。会用点python。博士时候修过数据结构和
算法的课，但是现在忘得差不多了。不会MPI。不会JAVA。
我最近申请了一些programming的工作，然后竟然也拿到了电话面试。可是在面试过程
中，觉得自己基础太差。很多基本概念不知道（或者忘了）。
我试着做版面上的面试题，会做的不多，弄得很没有自信，觉得如果想走这行，是不是
真需要找个学校，修个CS的master。还是自己在家肯几个月书本。再重新投投简历。
我用本专业找工作，除了一个电面，什么都没有。对未来很没信心。所以想问问有没有
类似背景的同学能给出一些建议。我之前的师兄师姐，不是回国，就是彻底转行了。

d******l
发帖数: 98

来自主题: JobHunting版 - 接受了offer， Eli Lilly，统计找工作挺容易的

楼主，IT公司面试考算法吗？一般都问什么题目呢？

接受了offer， Eli Lilly机会都是朋友内退或者jsm会上得到的。9个onsite，去了7个
，最后两个没时间了就没去（GSK，amazon），it公司全挂，自己也许真........

y*****e
发帖数: 712

来自主题: JobHunting版 - 统计一下看看几个人知道Morris Traverse的

这题FB考过。还是记住吧。何况这个算法本身还是挺有意思的，也算是增长一下见识。

n*******t
发帖数: 44

来自主题: JobHunting版 - 真心求教，关于实习/第一份工作

理科，博士，还算不错的学校。科研用到不少像PCA,SSA一类的统计分析；编程方面主
要用MATLAB实现以上统计算法，也会Shell scripting。正在自学Python和Data mining
,但还刚入门。
想找与数据分析相关的实习或入门级工作(data analyst/scientist?)，在实习工作中
学习相关技能。请问我现在已有的能力有可能拿到一份工作吗？如果有一个月时间，我
应该提高哪些方面或者学习哪些技能，更有助于找到一份工作？
刚开始找实习，实在是一窍不通。多谢大家赐教。

n*******t
发帖数: 44

来自主题: JobHunting版 - 真心求教，关于实习/第一份工作

谢谢回复。
关于编程可以再具体些吗？
我现在编程主要用matlab，矩阵运算，统计算法实现，流程控制。
我在学Python，并会用基本的数据结构和流程控制。下面应该着重提高哪些方面？

l*****a
发帖数: 14598

来自主题: JobHunting版 - 问一个算法题找median

这题连我都会
整数分成若干区间，统计每台机器上各个区间数目
然后找到 median所在区间
然后该区间再分成字区间。。。

o***g
发帖数: 2784

来自主题: JobHunting版 - 一个算法题目

这个数组按照题目是一共7个数，我们就知道这里包含的整数是1到6这个区间内的整数
将1到6这个区间分成1到3和4到6两个区间去统计各有多少个数，必然会有一个区间的数
的个数是超过3个的

y***n
发帖数: 1594

来自主题: JobHunting版 - 非科班学习算法+数据结构的教程?

如果是找工作要学，我觉得没必要。。
数学统计背景其实比一般的马工好，又没有那么多的烙印。。

s*****r
发帖数: 43070

来自主题: JobHunting版 - Bioinformatics 女Phd转行，求建议

2最有value，network analysis和graph algorithm，那些统计算法是DS常用的
5里面的在cluster上跑程序是指distributed computing?
如果俺是面试官，重点会问2里面的东西和cluster computing。
俺觉得狠适合当data scientist，需要认真准备上面的重点，面试时候做到对答如流，
如数家珍，知道前因后果，应该差不多了。可以扩大寻找范围，弯曲的工作更多。
不适合当码农，可以补习一下数据结构，了解基本知识足矣。

B*******g
发帖数: 1593

来自主题: JobHunting版 - 求问一道算法题（5 mL水桶，3mL水桶求1mL水）

这很像硬币凑数的题目啊，不过有减法，次数统计也不像数硬币那么直接，应该可以dp?

l*3
发帖数: 2279

来自主题: JobHunting版 - ### 欢迎讨论：为什么FLG等等公司要用算法题来选择和招聘人？

我觉得你的看法和评判标准很客观。但如果让我主观臆测一下的话，我认为很显然这个
相关度是高的。就好比高考考分高的人混的平均要好一些一样。当然也可以说我没有真
正统计调查过，就没有发言权。但是我的感觉是这种显而易见的东西根本不用调查。。。
什么刷题啊考试啊竞赛啊能弄得很厉害的那类人，不见得是天才或者非常聪明。但是大
部分的天才，面对这些东西的时候就跟切菜一样。。。当然少部分怪才可能不适应这种
标准的筛选机制，但那只是很少一部分而已。。。。而且我个人认为，对那种人而言，
他们根本不在乎什么刷题竞赛的。。。
总之我的结论是，大部分能问出楼主这种问题的人，本质上还是蠢而已。。。再次强调
一下，我这里说的蠢，只是针对数学计算机逻辑而言的，和情商啊为人应变处事能力啊
都没关系。。
其实说到底，人家湾区的码农公司又不是傻子。。。该招啥人人家不知道么？。。普通
人没什么牛逼背景的，就是要先通过做几个智力题来证明自己不是傻逼，否则人家招了
你你干活不麻利怎么办？。。。
那种巨牛逼直接在学校里就能做出很好的研究成果的，也根本不用通过什么刷题面试一
轮一轮过，直接就被内推到公司的研究院了。。。而且那种人就算真... 阅读全帖

l*3
发帖数: 2279

来自主题: JobHunting版 - ### 欢迎讨论：为什么FLG等等公司要用算法题来选择和招聘人？

高考成绩不好，最后也没做出贡献的比例更大。。。。。
我不跟没有基本统计常识和逻辑素养的人辩解这些显而易见的道理。最基本的贝叶斯得
懂吧？
given 高考成绩区间，考量一下你所谓的 “社会贡献” 去。看看是前50%的考生牛逼
还是后50%的考生牛逼。。

trace

z*******r
发帖数: 12

来自主题: JobHunting版 - 问道indeed面试算法题

假设有m个list，每个list有n个数，同时假设每个list中没有重复的数字。
对于merge k sorted list那种方法来说，首先用priorityqueue merge，同时poll出来
数字时统计相同的数字有多少个。所以每个数字都要进队列一次，出队列一次，
priorityqueue中只能同时有m个数字。所以这部分时间复杂度是O(m*n*log(m))。
接着为了保证输出有序，对符合要求的数字排序，假设有x数字满足要求，时间复杂度
是O(xlog(x))
如果x不是很大，那么这种方法的时间复杂度应该是O(max(m*n*log(m), xlog(x))) ~ O
(m*n*log(m))
对于楼主方法来说，把所有数字放到HashMap中，时间复杂度是O(m*n)，再遍历一遍
HashMap挑出合法的数字，时间复杂度仍然不会超过O(m*n)
对于输出结果排序，时间复杂度是O(max(m*n, xlog(x))) ~ O(m*n)
对于最坏情况来说，每个数字都要输出，那么x=m*n，时间复杂度是O(m*nlog(m*n))
从时间复杂度的角度来说楼主的方法应该是要优于mer... 阅读全帖

L***s
发帖数: 1148

来自主题: JobHunting版 - 请教大神们一道算法题关于实时输出Top K最频繁变动的股价

hash heap 思路算是 baseline 标准答案。就在原有的 min heap array
基础上内置一个 hash map 来标记 key 在 heap array 中的 index，
sift up/down, pop, push 每次触发 swap 的时候更新 index 即可。
如果 N >> K，为省空间一般用 min heap of size K，时间每次 O(log K)；
如果 N 和 K 差不多，用 max heap of size N，全装进去好了。
股票总数 N 其实不会太大，所以两者均可。
拓展开来，像这种求 top K frequent 的问题，在 N 非常大时，
hash heap 里面那个 hash map 容易爆（虽然可以取模分布在多机）。
如果不需要准确统计变动次数，允许计数误差(高估)，
其实可用一些基于概率的数据结构来替换该 hash map，
比如类似 bloom filter 的各种变种，比如下面链接提到的 CM Sketch：
http://soulmachine.gitbooks.io/system-design/content/c... 阅读全帖

e*******9
发帖数: 1028

来自主题: Money版 - 听说把信用卡还款分开几次还能增加信用分数？

搞统计算法的那些哥们, 就知道其中的奥妙.
当然, 那是保密的......

b*******i
发帖数: 594

来自主题: Money版 - 借人气问个亚马逊退货的问题

我遇见过2次和楼主相同的情况。一次是$10的宝宝玩具，另一次是$60的维生素片，没
有什么不良影响。亚麻估计是有统计算法的，不定期的奖励一下经常购物的顾客。

a*****a
发帖数: 19262

来自主题: NextGeneration版 - 唐筛的结果出来了:(

我们还是咨询了基因专家，虽然他什么DIRECTION都没有给，不过我大概明白这种唐氏
测试的统计算法，是有很多FAKE　POSITIVE的，后来跟老公商量还是算了。

w****k
发帖数: 10542

来自主题: Stock版 - 还有人打算抄底吗？统计一下。

看看新算法的优越性在哪里。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天