第3页 - 关于倒排的讨论汇总 - 话题女王

t****n
发帖数: 10724

她的意思是按时间顺序倒排。

i******r
发帖数: 861

来自主题: WaterWorld版 - 敬告龙应台们，现代化与下水道无关(ZT)

敬告龙应台们，现代化与下水道无关
信源：宋鲁郑博客｜编辑：2012-07-25｜网址：http://www.popyard.org 抄送朋友｜打印保留
【八阕】一个劳动人民群众喜闻乐见的好地方:http://www.popyard.org
【八阕】郑重声明：本则消息未经严格核实，也不代表《八阕》观点。--[服务使用须
知]【八阕】一个劳动人民群众喜闻乐见的好地方:http://www.popyard.org
龙应台的一段话广为流行：“检验一座城市或一个国家是不是够现代化，一场大雨足矣
……或许有钱建造高楼大厦，却还没有心力去发展下水道；高楼大厦看得见，下水道看
不见。你要等一场大雨才看出真面目来。”在北京暴雨后，这段话广为流传，更荒唐的
是，有媒体更简单的得出如下结论：中国和世界隔着一条下水道，文明的差距就是一条
下水道。如果照此逻辑，法国酷暑，是不是法国和世界隔着一个高温？美国枪击案如此
频繁，是不是美国和世界就隔着一条枪？和文明社会隔着一条枪？中国在三十年的曲折
终于走向正途之后，在一种尽快缩小差距的压力之下，又前行的过于仓促。这都不可避
免的导致各种问题的产生... 阅读全帖

w******z
发帖数: 1872

来自主题: Joke版 - 喜讯：盘点2015年习主席带火的10个新热词 (转载)

【以下文字转载自 Military 讨论区】
发信人: wizardoz (hoho), 信区: Military
标题: 喜讯：盘点2015年习主席带火的10个新热词
发信站: BBS 未名空间站 (Wed Aug 5 13:19:20 2015, 美东)
奥赛金牌按：习主席真是伟大！细读这种“习式风格”，真的很难不被这些语言背后
的力量所震撼！心灵激荡！中国人民还是很有福气的！
http://news.ifeng.com/a/20150804/44344452_0.shtml
编者按：自习近平当选中共中央总书记以来，习式语言鲜明的风格逐渐被民众熟知。有
人说，语言是思想的外衣，习近平总书记的一系列重要讲话、文章、访谈等，内涵深刻
、风格鲜明，人们喜闻乐见，大家都纷纷解读这种“习式风格”，被这些语言背后的力
量所震撼。
今年年初，人民网时政频道推出的《这两年，习近平带火的12个热词》，引起了各界广
泛好评。眨眼间，2015年一半多的时间一晃而过，总书记依然很忙。开会、调研、出访
，在讲话与交流中依旧不乏各种生动的俗文俚语，也不乏深刻形象的比喻。让我们来回
顾盘点一下，这... 阅读全帖

R*****d
发帖数: 1148

来自主题: ChineseClassics版 - Re: 六四为什么需要25万大军? (转载)

那这就只能是你自己的猜测了。起先你说江青 is not a scholar，言下之意是她学问不够，不能强求。现如今你又说江青是故意要标新立异，也就是说她并非没有这方面的知识。。。如果非要较个真儿，可不可以认为你前后矛盾啊？哈哈。
我仍然认为这个问题最好不要随便臆测。除非你能收集到足够的文革古体诗词，来证明用修改古典的方式来标新立异是一个普遍现象，否则就应该谨慎对待。对了，我倒是想起了点儿东西，老毛的《读封建论呈郭老》（这个连我这种不读诗都知道，大家都应该很熟吧），你看最后一句话：“莫从子厚返文王”。如果要破旧立新，为何不说“莫从子厚返姬昌”呢？正好也可以对封建帝王直呼其名，多革命啊。但是老毛没这么做，作为自诩的老毛的最紧密追随者的江青，又该如何呢？况且，流传下来的之所以是“绛灌”而非“周灌”（有趣的是，原文用的是“灌周”，威望显然逊于周勃的灌婴倒排在了前面），主要原因恐怕还是在于汉朝初年周姓人比较多，而恰巧周勃的封地是单字的（陈平就没这待遇了，总不能叫他“曲逆”吧；但是张良却总是被称为“留侯”，很少会提他的姓；姓氏和封地都是两个字的夏侯婴就干脆用其过去的封号来称呼（“滕”））。到了二十... 阅读全帖

o******r
发帖数: 168

来自主题: AC版 - 信息爆炸时代的几点感慨---原创 (转载)

【以下文字转载自 EmergingNetworking 讨论区】
发信人: osuflyer (zcnw), 信区: EmergingNetworking
标题: 信息爆炸时代的几点感慨---原创
关键字: 计算机网络信息变革财富
发信站: BBS 未名空间站 (Sat Nov 27 15:54:37 2010, 美东)
作者OSU-FLYER
信息将继续变革社会成为更高层次的信息社会
信息爆炸的空间维度基础是信息网络
你有一个思想，我有一个思想，通过信息网络的交换，就变成两个思想，而对于互联网络的人群基数是几十亿计，Cn2这样的组合虽然假设了每两个人都要组合通信，不符合实际，但从一个侧面反映了信息爆炸的复杂度至少是n2级别的。两两交换信息一般出现在实时聊天的情况下。而如果被动的接受信息，受众众多，就可以在短时间内复制更多的思想，经过消化成为更多的新思想，新信息。信息爆炸的基本面就这样形成了。没有人能够说得清信息社会是多少维的。在我看来，它是无穷维度的，并很可能不是可数的维度。它有无数个子空间，并不断创造着新的子空间，这样说来有点类似宇宙大爆炸。但是宇宙的更新是缓慢而... 阅读全帖

y*********3
发帖数: 3888

来自主题: Apple版 - 今年的5s必火

今年的5s必火，特别是金色的版本，绝对🔥！！！现在已经好多人在5大倒排队
了呀

o******r
发帖数: 168

来自主题: EmergingNetworking版 - 信息爆炸时代的几点感慨---原创

作者OSU-FLYER
信息爆炸的空间维度基础是信息网络
你有一个思想，我有一个思想，通过信息网络的交换，就变成两个思想，而对于互联网络的人群基数是几十亿计，Cn2这样的组合虽然假设了每两个人都要组合通信，不符合实际，但从一个侧面反映了信息爆炸的复杂度至少是n2级别的。两两交换信息一般出现在实时聊天的情况下。而如果被动的接受信息，受众众多，就可以在短时间内复制更多的思想，经过消化成为更多的新思想，新信息。信息爆炸的基本面就这样形成了。没有人能够说得清信息社会是多少维的。在我看来，它是无穷维度的，并很可能不是可数的维度。它有无数个子空间，并不断创造着新的子空间，这样说来有点类似宇宙大爆炸。但是宇宙的更新是缓慢而死寂的，信息空间的更新是迅速而难以琢磨的，倾向于混沌状态。如果说宇宙还有物理规律可以遵循，那么信息空间就显得难以琢磨。它有没有基向量，有没有有限的几个基可以无限逼近任意一条信息。这些问题还没有答案。信息论创始人香农定义了信息的测度和传输的模型，从而建立了现代通信理论。而对于信息的结果，如此庞大的空间却没有研究完。如果用不确定性理论概论来表达信息，那么这样一个庞大的空间会有多少不确定... 阅读全帖

S*****n
发帖数: 227

来自主题: Programming版 - 算法问题

做一个元素到集合的倒排表可能有帮助。

w***g
发帖数: 5958

来自主题: Programming版 - 算法导论重点

上次在CS版答应给划重点的，发到这儿算了。我手上是第二版。我觉得转行的没有基础
的看完下面这些(约300页，全书1/3的样子）在算法上基本上能达到科班出身水平。可
以按书本身的顺序看，也可以按下面给出的顺序看。
A. 基本概念
1-3 pp.1-61
B. 基本程序设计方法
穷举法看眼八皇后问题的接法和产生全排列的方法
贪心法 16.1-16.3 pp.370-393
23.1-23.2 pp.561-580
动态规划 15.1-15.4 pp.323-356
分治法(divide and conquer) 本书没有专门的章节讲这个，需要自己随便上网搜搜。
结合下面章节看
选中位数 9.1-9.3 183-189
快速排序和二分查找
回溯(recursion) 这个是具体的实现方法，可以和上面三类方法结合。书中没有。可以
自己动手编一下算fibonacci数和解Tower of Hanoi问题的算法，体会一下回溯算法的
基本结构。看眼下面的页面
http://en.wikipedia.org/wiki/Memoiz... 阅读全帖

w***g
发帖数: 5958

来自主题: Programming版 - 算法导论重点

w***g
发帖数: 5958

来自主题: Programming版 - 大家了解Google的Search by Image的工作原理吗？

那个不是倒排表，而是高维向量的相似性索引。传统方法中用的比较多的是LSH和kd-
tree。目前最牛的方法是基于k-nearest neighbor graph的索引，可以秒杀传统方法。
这是我吃饭的老本行了。

z****e
发帖数: 54598

来自主题: Programming版 - 我们造轮子吧，轮子成败的关键应该是

string刚刚被研究透呀
倒排表搞定string的查询才过了多少年
graph的研究才刚刚开始呢
很多秘密可言啊，你没看到wdong和弃大妈一聊到graph的识别
很快就闭嘴了，尽聊些不痛不痒的东西

z****e
发帖数: 54598

来自主题: Programming版 - 急问，有包子，怎样提高SCRIPT 的EFFICIENCY.

soga
你做的是倒排表
接近text相似度那种
你第一步先把数据转换
然后存起来，用的时候从转换后的数据中读
不要用list，用hashmap(java)或者python的dictionary
list效率太低，你每次都得遍历
复杂度很快就上去了，用hashmap，查找效率最快
超过tree
反正你也不需要频繁地插入或者修改数据不是？
我上次用hashmap对莎士比亚的全集做word counts
就用了4秒多，我都怀疑这么快是不是我弄错了
其他人用list，算了好久

z****e
发帖数: 54598

来自主题: Programming版 - 急问，有包子，怎样提高SCRIPT 的EFFICIENCY.

相似度有一个理论
你这里应该是26个字母
所以dimension = 26
然后normalize每个string
最后点乘后根据点乘结果做排序
就是倒排表
所以你可以把这个处理的结果存起来
下次读的时候，就不需要重新算一遍
直接从处理结果中取就行了，这样就可以优化整体效率

S*A
发帖数: 7142

来自主题: Programming版 - 急问，有包子，怎样提高SCRIPT 的EFFICIENCY.

LZ 的这个问题是挺有意思的。
python difflib.sequencematcher 里面的解决的问题是 Longest common subsequence
problem
http://en.wikipedia.org/wiki/Longest_common_subsequence_problem
这个问题是 NP hard 的。
我觉得你有可能把他混淆成 Longest common substring problem
http://en.wikipedia.org/wiki/Longest_common_substring_problem
对于LZ的 LCS 问题（前者），我比较愚昧，没有看出你的倒排表能帮助些什么。
后者有可能。
你要是觉得还是可以有算法级别的加快可以用个简单 pseduo code 展示一下
如何 work 的。

z****e
发帖数: 54598

来自主题: Programming版 - 急问，有包子，怎样提高SCRIPT 的EFFICIENCY.

就是倒排表嘛
先根据context expand key terms
然后根据这个抓similarity
看来楼主做到了第一个大作业

z****e
发帖数: 54598

来自主题: Programming版 - 急问，有包子，怎样提高SCRIPT 的EFFICIENCY.

找similarity最靠谱的算法就是倒排表
简单粗暴，而且效率很高，o(n)复杂度
预处理的话，老师应该上来就教这个才对
至于其他的，其实都是扯蛋
真正效率更高的，应该是bm25
那这个复杂得多，参数tune来tune去，麻烦
string那个东西可以不搞了，没啥意思，string都被搞烂了
text也都搞得差不多了，搞image和sound才有趣撒
sound好像难度也不太高，image比较有搞头
搞完这个，就去看wdong说的那些了

S*A
发帖数: 7142

来自主题: Programming版 - 急问，有包子，怎样提高SCRIPT 的EFFICIENCY.

你这个倒排表是如何处理 typo 的？
LZ这个我怀疑直接加个 exact match 的判断就
可以快很多。至于相似度， sequence match 是非常靠谱的。
复杂的情况，例如 DNA sequence matching，这个是最靠谱
的。

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

lol
不是跟你说了倒排表效率是最高的么？
我干嘛要顺着你的思路去实现？
有病么？
你愿意选择比较烂的算法，跟我有什么关系？

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

倒排表的实现spark上就有
你有兴趣自己去做测试去
我没事浪费这个时间干嘛？
有病吗？

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

你无聊啊
自己把原thread看看
我早就说你无聊了
你自己折腾半天
最后发现还是倒排表效率最高
你前面弄半死，有啥好处没？
那个包子我拿到都给退了

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

顺便说一下，那个倒排表我手上头有python和java两个版本
lol
想要，给钱，天经地义的事

z****e
发帖数: 54598

来自主题: Programming版 - 请不要盲目崇拜FP语言

那题他用的算法效率太低，复杂度太高
至于倒排表怎么做，这个理解idea比看代码有用
idea实现我已经写在那个thread里面了呀
照着做就是了，我都是java和python版本的
问问wdong，他应该有c++版本的，lol
关键是idea，实现其实不重要

w***g
发帖数: 5958

来自主题: Programming版 - 请不要盲目崇拜FP语言

我考了下古。其实正确的方法上面pker已经提到了。
要在N个串里面找nearest neighbor，要找M次，问题是相似性测度计算太慢。
要是我首先会试下面的方法：
1. python并行化上多核。假设有8 core，速度直接提高8倍。
2. 我会先在前N/L个串中找nearest neighbor，L需要调，预设为100吧。
开销为整个问题的1/L。算完后对nearest neighbor的距离就有个下界了。
然后剩下所有的串先用quick_ratio/really_quick_ratio算上届，超不过
那个下界的直接扔掉，超过了再用ratio算。
3. 要还是慢，有多台机器就上多台机器吧。不需要mapreduce。
苦主那个相似性测度是一个近似edit distance的heuristic，本身就做不得准。
上面也说了苹果橘子的问题。python那段代码实现其来应该很罗嗦，想用
别的语言写一遍并不容易。用java实现同样的算法复杂度上不会更优，光靠
语言可以提高至少10倍速度吧。对N个串用倒排表建索引确实是个优化，但是
程序写起来就更罗嗦，我觉得不值得做。
可惜的是楼主的问题规模... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - spark 为啥不用 java 写

你自己用java实现一下bm25，你就明白了
都不要那么复杂，倒排表自己写一遍，就知道了
java繁琐很多，再用python写一遍，对比一下效率
你就知道python有多慢了
scala写起来快，但是还是会写成天书
数学的东西没办法，本身就很像天书

d**g
发帖数: 1031

来自主题: EE版 - TI的绿卡政策

按你身份过期日, 倒排, 就是谁的身份要过期了, 优先办理.
有人一进去就办了, 有人要等.
也看你老板帮不帮你.
也看你自己条件, EB1 还是EB2 还是EB3, 公司最近没有layoff.

w***9
发帖数: 89

来自主题: _IVF版 - 吃了clomid之后，到现在还没有排卵，怎么回事呀！！！

别着急!
我就是吃clomid不排卵,自然倒排了,哈哈..

x***u
发帖数: 6421

来自主题: _Mao_and_Deng版 - 1644人署名坚决要求罢免温家宝，原文来了 (转载)

【以下文字转载自 Military 讨论区】
发信人: cctvsmg (毒枭), 信区: Military
标题: 1644人署名坚决要求罢免温家宝，原文来了
发信站: BBS 未名空间站 (Wed Aug 8 12:33:08 2012, 美东)
『乌有之乡』闹翻案

马宾李成瑞等1644人署名坚决要求

罢免温家宝的中央政治局常委和国务院总理职务

中共中央委员会、全国人大常委会：

今年以来，国内外有关势力加紧合谋，以改革攻坚，反垄断为名，要使我国仅存的
大型国有骨干企业，全面私有化；这些国有企业面临被瓦解、瓜分、彻底搞垮的高度危
险。这是关系到党和国家生死存亡的大事。为了全国人民的根本利益，为了党和国家的
光明前途，我们郑重地发出呼吁：

一、坚决维护我国社会主义的基本经济制度

宪法是国家的根本大法，必须维护宪法的权威与尊严。我国宪法第一条规定：“中
华人民共和国是工人阶级领导的、以工农联盟为基础的人民民主专政的社会主义国家。
”“社会主义制度是中华人民共和国的根本制度。禁止... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天