|
i******r 发帖数: 861 | 2 敬告龙应台们,现代化与下水道无关
信源:宋鲁郑博客|编辑:2012-07-25| 网址:http://www.popyard.org 抄送朋友|打印保留
【八阕】一个劳动人民群众喜闻乐见的好地方:http://www.popyard.org
【八阕】郑重声明:本则消息未经严格核实,也不代表《八阕》观点。--[服务使用须
知]【八阕】一个劳动人民群众喜闻乐见的好地方:http://www.popyard.org
龙应台的一段话广为流行:“检验一座城市或一个国家是不是够现代化,一场大雨足矣
……或许有钱建造高楼大厦,却还没有心力去发展下水道;高楼大厦看得见,下水道看
不见。你要等一场大雨才看出真面目来。”在北京暴雨后,这段话广为流传,更荒唐的
是,有媒体更简单的得出如下结论:中国和世界隔着一条下水道,文明的差距就是一条
下水道。如果照此逻辑,法国酷暑,是不是法国和世界隔着一个高温?美国枪击案如此
频繁,是不是美国和世界就隔着一条枪?和文明社会隔着一条枪?中国在三十年的曲折
终于走向正途之后,在一种尽快缩小差距的压力之下,又前行的过于仓促。这都不可避
免的导致各种问题的产生... 阅读全帖 |
|
w******z 发帖数: 1872 | 3 【 以下文字转载自 Military 讨论区 】
发信人: wizardoz (hoho), 信区: Military
标 题: 喜讯:盘点2015年习主席带火的10个新热词
发信站: BBS 未名空间站 (Wed Aug 5 13:19:20 2015, 美东)
奥赛金牌按: 习主席真是伟大!细读这种“习式风格”,真的很难不被这些语言背后
的力量所震撼!心灵激荡! 中国人民还是很有福气的!
http://news.ifeng.com/a/20150804/44344452_0.shtml
编者按:自习近平当选中共中央总书记以来,习式语言鲜明的风格逐渐被民众熟知。有
人说,语言是思想的外衣,习近平总书记的一系列重要讲话、文章、访谈等,内涵深刻
、风格鲜明,人们喜闻乐见,大家都纷纷解读这种“习式风格”,被这些语言背后的力
量所震撼。
今年年初,人民网时政频道推出的《这两年,习近平带火的12个热词》,引起了各界广
泛好评。眨眼间,2015年一半多的时间一晃而过,总书记依然很忙。开会、调研、出访
,在讲话与交流中依旧不乏各种生动的俗文俚语,也不乏深刻形象的比喻。让我们来回
顾盘点一下,这... 阅读全帖 |
|
R*****d 发帖数: 1148 | 4 那这就只能是你自己的猜测了。起先你说江青 is not a scholar,言下之意是她学问不够,不能强求。现如今你又说江青是故意要标新立异,也就是说她并非没有这方面的知识。。。如果非要较个真儿,可不可以认为你前后矛盾啊?哈哈。
我仍然认为这个问题最好不要随便臆测。除非你能收集到足够的文革古体诗词,来证明用修改古典的方式来标新立异是一个普遍现象,否则就应该谨慎对待。对了,我倒是想起了点儿东西,老毛的《读封建论呈郭老》(这个连我这种不读诗都知道,大家都应该很熟吧),你看最后一句话:“莫从子厚返文王”。如果要破旧立新,为何不说“莫从子厚返姬昌”呢?正好也可以对封建帝王直呼其名,多革命啊。但是老毛没这么做,作为自诩的老毛的最紧密追随者的江青,又该如何呢?况且,流传下来的之所以是“绛灌”而非“周灌”(有趣的是,原文用的是“灌周”,威望显然逊于周勃的灌婴倒排在了前面),主要原因恐怕还是在于汉朝初年周姓人比较多,而恰巧周勃的封地是单字的(陈平就没这待遇了,总不能叫他“曲逆”吧;但是张良却总是被称为“留侯”,很少会提他的姓;姓氏和封地都是两个字的夏侯婴就干脆用其过去的封号来称呼(“滕”))。到了二十... 阅读全帖 |
|
o******r 发帖数: 168 | 5 【 以下文字转载自 EmergingNetworking 讨论区 】
发信人: osuflyer (zcnw), 信区: EmergingNetworking
标 题: 信息爆炸时代的几点感慨---原创
关键字: 计算机网络 信息 变革 财富
发信站: BBS 未名空间站 (Sat Nov 27 15:54:37 2010, 美东)
作者OSU-FLYER
信息将继续变革社会成为更高层次的信息社会
信息爆炸的空间维度基础是信息网络
你有一个思想,我有一个思想,通过信息网络的交换,就变成两个思想,而对于互联网络的人群基数是几十亿计,Cn2这样的组合虽然假设了每两个人都要组合通信,不符合实际,但从一个侧面反映了信息爆炸的复杂度至少是n2级别的。两两交换信息一般出现在实时聊天的情况下。而如果被动的接受信息,受众众多,就可以在短时间内复制更多的思想,经过消化成为更多的新思想,新信息。信息爆炸的基本面就这样形成了。没有人能够说得清信息社会是多少维的。在我看来,它是无穷维度的,并很可能不是可数的维度。它有无数个子空间,并不断创造着新的子空间,这样说来有点类似宇宙大爆炸。但是宇宙的更新是缓慢而... 阅读全帖 |
|
y*********3 发帖数: 3888 | 6 今年的5s必火,特别是金色的版本,绝对🔥!!!现在已经好多人在5大倒排队
了呀 |
|
o******r 发帖数: 168 | 7 作者OSU-FLYER
信息爆炸的空间维度基础是信息网络
你有一个思想,我有一个思想,通过信息网络的交换,就变成两个思想,而对于互联网络的人群基数是几十亿计,Cn2这样的组合虽然假设了每两个人都要组合通信,不符合实际,但从一个侧面反映了信息爆炸的复杂度至少是n2级别的。两两交换信息一般出现在实时聊天的情况下。而如果被动的接受信息,受众众多,就可以在短时间内复制更多的思想,经过消化成为更多的新思想,新信息。信息爆炸的基本面就这样形成了。没有人能够说得清信息社会是多少维的。在我看来,它是无穷维度的,并很可能不是可数的维度。它有无数个子空间,并不断创造着新的子空间,这样说来有点类似宇宙大爆炸。但是宇宙的更新是缓慢而死寂的,信息空间的更新是迅速而难以琢磨的,倾向于混沌状态。如果说宇宙还有物理规律可以遵循,那么信息空间就显得难以琢磨。它有没有基向量,有没有有限的几个基可以无限逼近任意一条信息。这些问题还没有答案。信息论创始人香农定义了信息的测度和传输的模型,从而建立了现代通信理论。而对于信息的结果,如此庞大的空间却没有研究完。如果用不确定性理论概论来表达信息,那么这样一个庞大的空间会有多少不确定... 阅读全帖 |
|
S*****n 发帖数: 227 | 8 来自主题: Programming版 - 算法问题 做一个元素到集合的倒排表可能有帮助。 |
|
w***g 发帖数: 5958 | 9 上次在CS版答应给划重点的,发到这儿算了。我手上是第二版。我觉得转行的没有基础
的看完下面这些(约300页,全书1/3的样子)在算法上基本上能达到科班出身水平。可
以按书本身的顺序看,也可以按下面给出的顺序看。
A. 基本概念
1-3 pp.1-61
B. 基本程序设计方法
穷举法 看眼八皇后问题的接法和产生全排列的方法
贪心法 16.1-16.3 pp.370-393
23.1-23.2 pp.561-580
动态规划 15.1-15.4 pp.323-356
分治法(divide and conquer) 本书没有专门的章节讲这个,需要自己随便上网搜搜。
结合下面章节看
选中位数 9.1-9.3 183-189
快速排序和二分查找
回溯(recursion) 这个是具体的实现方法,可以和上面三类方法结合。书中没有。可以
自己动手编一下算fibonacci数和解Tower of Hanoi问题的算法,体会一下回溯算法的
基本结构。看眼下面的页面
http://en.wikipedia.org/wiki/Memoiz... 阅读全帖 |
|
w***g 发帖数: 5958 | 10 上次在CS版答应给划重点的,发到这儿算了。我手上是第二版。我觉得转行的没有基础
的看完下面这些(约300页,全书1/3的样子)在算法上基本上能达到科班出身水平。可
以按书本身的顺序看,也可以按下面给出的顺序看。
A. 基本概念
1-3 pp.1-61
B. 基本程序设计方法
穷举法 看眼八皇后问题的接法和产生全排列的方法
贪心法 16.1-16.3 pp.370-393
23.1-23.2 pp.561-580
动态规划 15.1-15.4 pp.323-356
分治法(divide and conquer) 本书没有专门的章节讲这个,需要自己随便上网搜搜。
结合下面章节看
选中位数 9.1-9.3 183-189
快速排序和二分查找
回溯(recursion) 这个是具体的实现方法,可以和上面三类方法结合。书中没有。可以
自己动手编一下算fibonacci数和解Tower of Hanoi问题的算法,体会一下回溯算法的
基本结构。看眼下面的页面
http://en.wikipedia.org/wiki/Memoiz... 阅读全帖 |
|
w***g 发帖数: 5958 | 11 那个不是倒排表,而是高维向量的相似性索引。传统方法中用的比较多的是LSH和kd-
tree。目前最牛的方法是基于k-nearest neighbor graph的索引,可以秒杀传统方法。
这是我吃饭的老本行了。 |
|
z****e 发帖数: 54598 | 12 string刚刚被研究透呀
倒排表搞定string的查询才过了多少年
graph的研究才刚刚开始呢
很多秘密可言啊,你没看到wdong和弃大妈一聊到graph的识别
很快就闭嘴了,尽聊些不痛不痒的东西 |
|
z****e 发帖数: 54598 | 13 soga
你做的是倒排表
接近text相似度那种
你第一步先把数据转换
然后存起来,用的时候从转换后的数据中读
不要用list,用hashmap(java)或者python的dictionary
list效率太低,你每次都得遍历
复杂度很快就上去了,用hashmap,查找效率最快
超过tree
反正你也不需要频繁地插入或者修改数据不是?
我上次用hashmap对莎士比亚的全集做word counts
就用了4秒多,我都怀疑这么快是不是我弄错了
其他人用list,算了好久 |
|
z****e 发帖数: 54598 | 14 相似度有一个理论
你这里应该是26个字母
所以dimension = 26
然后normalize每个string
最后点乘后根据点乘结果做排序
就是倒排表
所以你可以把这个处理的结果存起来
下次读的时候,就不需要重新算一遍
直接从处理结果中取就行了,这样就可以优化整体效率 |
|
|
z****e 发帖数: 54598 | 16 就是倒排表嘛
先根据context expand key terms
然后根据这个抓similarity
看来楼主做到了第一个大作业 |
|
z****e 发帖数: 54598 | 17 找similarity最靠谱的算法就是倒排表
简单粗暴,而且效率很高,o(n)复杂度
预处理的话,老师应该上来就教这个才对
至于其他的,其实都是扯蛋
真正效率更高的,应该是bm25
那这个复杂得多,参数tune来tune去,麻烦
string那个东西可以不搞了,没啥意思,string都被搞烂了
text也都搞得差不多了,搞image和sound才有趣撒
sound好像难度也不太高,image比较有搞头
搞完这个,就去看wdong说的那些了 |
|
S*A 发帖数: 7142 | 18 你这个倒排表是如何处理 typo 的?
LZ这个我怀疑直接加个 exact match 的判断就
可以快很多。至于相似度, sequence match 是非常靠谱的。
复杂的情况,例如 DNA sequence matching, 这个是最靠谱
的。 |
|
z****e 发帖数: 54598 | 19 lol
不是跟你说了倒排表效率是最高的么?
我干嘛要顺着你的思路去实现?
有病么?
你愿意选择比较烂的算法,跟我有什么关系? |
|
z****e 发帖数: 54598 | 20 倒排表的实现spark上就有
你有兴趣自己去做测试去
我没事浪费这个时间干嘛?
有病吗? |
|
z****e 发帖数: 54598 | 21 你无聊啊
自己把原thread看看
我早就说你无聊了
你自己折腾半天
最后发现还是倒排表效率最高
你前面弄半死,有啥好处没?
那个包子我拿到都给退了 |
|
z****e 发帖数: 54598 | 22 顺便说一下,那个倒排表我手上头有python和java两个版本
lol
想要,给钱,天经地义的事 |
|
z****e 发帖数: 54598 | 23 那题他用的算法效率太低,复杂度太高
至于倒排表怎么做,这个理解idea比看代码有用
idea实现我已经写在那个thread里面了呀
照着做就是了,我都是java和python版本的
问问wdong,他应该有c++版本的,lol
关键是idea,实现其实不重要 |
|
w***g 发帖数: 5958 | 24 我考了下古。其实正确的方法上面pker已经提到了。
要在N个串里面找nearest neighbor,要找M次,问题是相似性测度计算太慢。
要是我首先会试下面的方法:
1. python并行化上多核。假设有8 core,速度直接提高8倍。
2. 我会先在前N/L个串中找nearest neighbor,L需要调,预设为100吧。
开销为整个问题的1/L。算完后对nearest neighbor的距离就有个下界了。
然后剩下所有的串先用quick_ratio/really_quick_ratio算上届,超不过
那个下界的直接扔掉,超过了再用ratio算。
3. 要还是慢,有多台机器就上多台机器吧。不需要mapreduce。
苦主那个相似性测度是一个近似edit distance的heuristic,本身就做不得准。
上面也说了苹果橘子的问题。python那段代码实现其来应该很罗嗦,想用
别的语言写一遍并不容易。用java实现同样的算法复杂度上不会更优,光靠
语言可以提高至少10倍速度吧。对N个串用倒排表建索引确实是个优化,但是
程序写起来就更罗嗦,我觉得不值得做。
可惜的是楼主的问题规模... 阅读全帖 |
|
z****e 发帖数: 54598 | 25 你自己用java实现一下bm25,你就明白了
都不要那么复杂,倒排表自己写一遍,就知道了
java繁琐很多,再用python写一遍,对比一下效率
你就知道python有多慢了
scala写起来快,但是还是会写成天书
数学的东西没办法,本身就很像天书 |
|
d**g 发帖数: 1031 | 26 按你身份过期日, 倒排, 就是谁的身份要过期了, 优先办理.
有人一进去就办了, 有人要等.
也看你老板帮不帮你.
也看你自己条件, EB1 还是EB2 还是EB3, 公司最近没有layoff. |
|
w***9 发帖数: 89 | 27 别着急!
我就是吃clomid不排卵,自然倒排了,哈哈.. |
|
x***u 发帖数: 6421 | 28 【 以下文字转载自 Military 讨论区 】
发信人: cctvsmg (毒枭), 信区: Military
标 题: 1644人署名坚决要求罢免温家宝,原文来了
发信站: BBS 未名空间站 (Wed Aug 8 12:33:08 2012, 美东)
『乌有之乡』闹翻案
马宾李成瑞等1644人署名坚决要求
罢免温家宝的中央政治局常委和国务院总理职务
中共中央委员会、全国人大常委会:
今年以来,国内外有关势力加紧合谋,以改革攻坚,反垄断为名,要使我国仅存的
大型国有骨干企业,全面私有化;这些国有企业面临被瓦解、瓜分、彻底搞垮的高度危
险。这是关系到党和国家生死存亡的大事。为了全国人民的根本利益,为了党和国家的
光明前途,我们郑重地发出呼吁:
一、坚决维护我国社会主义的基本经济制度
宪法是国家的根本大法,必须维护宪法的权威与尊严。我国宪法第一条规定:“中
华人民共和国是工人阶级领导的、以工农联盟为基础的人民民主专政的社会主义国家。
”“社会主义制度是中华人民共和国的根本制度。禁止... 阅读全帖 |
|