第8页 - 关于queries的讨论汇总 - 话题女王

全部话题 - 话题: queries

m*********y
发帖数: 389

来自主题: Database版 - 谁有临阵磨枪的有关SQL Server的题目？

Here are some questions I copied from online.. Obviously LouZhu is a lazy
ass... these questions are everywhere... :-)
SQL Interview questions
Below is a list of questions in this blog post so you can test your
knowledge without saying answers. If you would like to see questions and
answers please scrool down.
Question: What type of joins have you used?
Question: How can you combine two tables/views together? For instance one
table contains 100 rows and the other one contains 200 rows, have exac... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 系统设计能力提高捷径

品味来了。
Basics and Algorithms
The Five-Minute Rule Ten Years Later, and Other Computer Storage Rules of
Thumb (1997): This paper (and the original one proposed 10 years earlier)
illustrates a quantitative formula to calculate whether a data page should
be cached in memory or not. It is a delight to read Jim Gray approach to an
array of related problems, e.g. how big should a page size be.
AlphaSort: A Cache-Sensitive Parallel External Sort (1995): Sorting is one
of the most essential algorithms in... 阅读全帖

d*2
发帖数: 2053

来自主题: DataSciences版 - Impala v Hive

http://vision.cloudera.com/impala-v-hive/
by Mike Olson
December 22, 2013
We introduced Cloudera Impala more than a year ago. It was a good launch for
us — it made our platform better in ways that mattered to our customers,
and it’s allowed us to win business that was previously unavailable because
earlier products simply couldn’t tackle interactive SQL workloads.
As a side effect, though, that launch ignited fierce competition among
vendors for SQL market share in the Apache Hadoop ecosystem, w... 阅读全帖

r******r
发帖数: 700

来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题

海量数据处理：十道面试题与十个海量数据处理方法总结
作者：July、youwang、yanxionglu。
时间：二零一一年三月二十六日
说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量
数据处理的方法总结。
本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随
时交流、指正。
出处：http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据，提取出某日访问百度次数最多的那个IP。
首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中
。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把
整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash
_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最
大的IP中，找出那个频率最大的IP，即为所求。
或者如下阐述（雪... 阅读全帖

r******r
发帖数: 700

来自主题: JobHunting版 - 如何秒杀99%的海量数据处理面试题

s**********o
发帖数: 14359

来自主题: Database版 - 如何秒杀99%的海量数据处理面试题 (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: rongxuer (蓉儿), 信区: JobHunting
标题: 如何秒杀99%的海量数据处理面试题
发信站: BBS 未名空间站 (Thu Apr 5 02:08:57 2012, 美东)
海量数据处理：十道面试题与十个海量数据处理方法总结
作者：July、youwang、yanxionglu。
时间：二零一一年三月二十六日
说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量
数据处理的方法总结。
本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随
时交流、指正。
出处：http://blog.csdn.net/v_JULY_v。
------------------------------------------
第一部分、十道海量数据处理面试题
1、海量日志数据，提取出某日访问百度次数最多的那个IP。
首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中
。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的... 阅读全帖

s********n
发帖数: 80

来自主题: Statistics版 - Apple 电话面试面经

感觉不是很好，一共就问了一个问题，关于Map 定位，现在正在用一个算法A，然后想
比较是不是算法B更好，数据库里面保存了上个月的20M的Queries,现在要从这20M里面
挑5K个拿来比较，当挑出这5K个之后，对于每个query，算法A和算法B都会给一个结果
，已有算法对这结果进行打分。问题是怎么挑着5K个queries？
我说了两个方法，最简单的就是randomly挑，但是又有缺点，就是可能会有queries是
类似的。当然每个query根据搜索的内容，发出query的地址不同都是不同的。我觉得可
能的缺点是没法考虑outlier。
另外一种方法就是先归类，哪怕有1M的queries都是搜附近的starbucks是哪里，我也就
在这5K要提交的queries里面抽一个是问starbucks在哪里。把剩下的席位留给其他很不
一样的Queries。但是这个里面需要建立一个东西来衡量不同queries的distance。尽量
保证着5K个queries两两之间的distance比较大。然后他问你这样算出来的结果能代表
那20M的queries吗？我说不能，但是你能知道两种算法AB在不同q... 阅读全帖

p******n
发帖数: 2449

来自主题: USANews版 - Dan Bongino, author of Spygate: The Attempted Sabotage of Donald J. Trump,

Dan Bongino, author of Spygate: The Attempted Sabotage of Donald J. Trump,
lists reasons why the Mueller probe is the cleanup operation for what he
called the "biggest scam in American history."
Bongino presents the evidence at the David Horowitz Freedom Center
Restoration Weekend, held Nov. 15th-18th at the Breakers Hotel in Palm Beach
, Florida.
DAN BONGINO: Some of you may have seen me on Fox this morning, and in fact
one of the ladies I was just talking to said well, where did you do that
fr... 阅读全帖

r*c
发帖数: 167

来自主题: JobHunting版 - 问一道题(6)

贴个pattern字符串有重复字符的解法，是dek,cpp1等大牛的解法的扩展。
#include
#include
#include
#include
using namespace std;
#define INT_MAX 2147483647
#define INT_MIN -2147483648
class MinWindowSolution
{
public:
struct TreeNode
{
TreeNode *parent;
int val;
vector children;
TreeNode(int i, TreeNode *p) : val(i), parent(p){}
};
void FindMinWindow_Tree(const vector& input , const vector&
query , int& nStart,... 阅读全帖

r*c
发帖数: 167

来自主题: JobHunting版 - 问一道题(6)

之前写了个C#的。思路都一样， use tree matching algorithm to determine the
candidate window.
//using System;
using System.Collections.Generic;
using System.Linq;
using System.Collections;
class MinWindowSolution
{
class TreeNode
{
public TreeNode parent;
public int val;
public List children;
public TreeNode(int i, TreeNode p) { val = i; parent = p; children =
new List(); }
};
public void FindMinWindow_Tree(int[] input, int[] query, out int nS... 阅读全帖

s********e
发帖数: 893

来自主题: Database版 - 请教一个Union后结果显示顺序的问题

理解Beijing MM的思路，就是后面的query要加上条件去掉和第一个query会产生同样结
果的records。这个方法和minus一样如果只有两个query是可行的。但是现在是多个
query union在一起，就很难每一个后面的query都去排除前面的query了。
之所以产生这样一个问题，是因为在搜索时每个query产生结果的概率不一样。想把概
率最大的query的结果排在最前面，概率小的query的结果排在后面，但是两个query的
结果有可能重复。所以强制性的给每个query加了个Disp_Order。但是它的加入，导致
了两个同样的records因为这个field的不同而不同了，所以无法用distinct。
不知道说清楚了没有。问过办公室里的oracle大牛，说这个问题困扰他多年。
partition by 应该可以解决这个问题
rank()
over (partition by disp_order order by XXXX）my_rank
但是不知道这个order by后面应该是什么。

l******b
发帖数: 39

来自主题: Database版 - 求解释

Query 1 与 Query 2 之间存在的数学关系为 Qurey 1 <= Query 2
即Query 1是Query 2的一个子集.
Query 1是先left join然后filtering based on flag column
Query 2是直接left join but base on two conditions
1) id
2) A flag = 1
Query 2的第二个条件因为是left join所以无效, 即
Query 2等价于直接left join而不filtering, 所以Query 1一定是Query 2
的一个子集

n****r
发帖数: 10

来自主题: JobHunting版 - A家面经

想起第一个设计题了，是说一个系统会不停接收query（每个query有一个唯一的ID，
query总数也不确定），然后run这个query得到一些结果并记录running time。不同
query可能会被运行很多次。要求系统在任意时刻能返回平均运行时间最快的5个query
和平均运行时间最慢的5个query。设计数据结构和算法～题大概可能就是这个意思，因
为当时交流起来真的很费劲。
当时说用hashmap来map query ID和一个pair，pair是query运行次数和当前平均运行时
间，这样每次更新很快，但是求最快的5个和最慢的5个比较费时，也想用最大堆和最小
堆，但每个query的平均运行时间是动态的～也不好弄。在纠结中时间就到了～

i****a
发帖数: 36252

来自主题: Database版 - Late afternoon 腦不好使

SQL 2005
I need to write 2 queries:
Query 1, blah blah blah
Query 2, I need to hit the rows that are NOT in Query 1
Method A:
Query 1, select blah into #temptable where blah = 1
Query 2, select blah not in (select blah from #temptable)
Method B:
Query 1, select blah where blah = 1
Query 2, select bah not in (select blah where blah = 1)
which one is more efficient? Is query optimize gonna make method B more
efficient? Is the only way to know to see query plan?

l*s
发帖数: 783

来自主题: DotNet版 - [合集] 菜人问问，你们都在database上干什么？？

☆─────────────────────────────────────☆
vn (jmj) 于 (Fri Oct 19 10:25:39 2012, 美东) 提到:
- 做很多view的操作吗？加index啥的不？还干神马其他的？
- 你们都把sql query写成stored procedure吗？前段时间好像就是在这个版上看到一
种观点就是用linq 这样在c#里面就可以改比stored procedure方便。。。这个理解对
不对？
- 用其他的方式访问db 比如NHibernate 还有什么工具？
☆─────────────────────────────────────☆
vn (jmj) 于 (Mon Oct 22 09:57:38 2012, 美东) 提到:
脚踏实地的问题木人讨论都跑到隔壁去吵架唉
☆─────────────────────────────────────☆
NeverLearn (24K golden bear) 于 (Mon Oct 22 17:36:01 2012, 美东) 提到:

只要关联查询多了，... 阅读全帖

m*****f
发帖数: 1243

来自主题: JobHunting版 - 这么热闹, 我也报Google offer

今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorithm (貌似博主已经关闭匿名浏览)
版面总结
http://www.mitbbs.com/article/JobHunting/31505215_4.html
Bitwise题目
http://graphics.stanford.edu/~seander/bithacks.htm... 阅读全帖

l*****a
发帖数: 14598

来自主题: JobHunting版 - 问道题，谁给个效率高点的解法

query array [A,B,C,D]
a b c A B D D a b c A b A d d B C D
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
start=0; end=start;
a not in query array ,OK end++
b end++
c end++
A first one in query array,OK end++
B met 1st before, now 2nd ,OK end++
D met 2nd before, now 4th,wrong
so [0,5] is illegal,we have to start from 6.
D in current slide windows, we met the 4th of query array, illegal
skip
start=7;end=start;
a not in query array ,OK end++
b ... 阅读全帖

i**********s
发帖数: 70

来自主题: Georgia版 - 卖八成新IKEA床、沙发、书桌、电脑椅等

因搬去别州，低价出售家具如下所示。
1、所有家具都是2013年10月在IKEA买的，八成新，状态良好，有receipt。
2、大家具5月15号之后可取，电脑椅等可联系先取走。自取地址在Alpharetta: AMLI@
Milton park
3、只收现金
4、邮箱c************[email protected]；电话678-308-8590（宋女士）
MALM （King size床架）
http://www.ikea.com/us/en/catalog/products/S89849853/?query=898
SULTAN FIDJETUN（King size床垫）
SULTAN LURÖY Slatted bed base（床架床垫之间的栅架）
————————
以上三样宜家原价为199+329+60=588，现价一起235
HEMNES （full size床架）
http://www.ikea.com/us/en/catalog/products/S49931576/?query=499
SULTAN FIDJETUN （full size床垫）
SULTAN L... 阅读全帖

f********t
发帖数: 6999

来自主题: SanFrancisco版 - 这么热闹, 我也报Google offer (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: mudhoof (正在长牙的羊), 信区: JobHunting
标题: 这么热闹, 我也报Google offer
发信站: BBS 未名空间站 (Tue Feb 23 12:32:47 2010, 美东)
今天刚刚通知的, 特别感谢一起讨论的krone, geniusxsy, hnm, 特别是blaze教了我很
多, 还要特别感谢mitbbs59的总结帖
一起报offer, 好事成三, 大吉大利, 包子分光为止
贴下我的复习材料
题目大全:
http://www.spellscroll.com/viewquestions/?tag=algorithm
http://www.thecareerplus.com/?page=resources&cat=10
http://interviewcyclopedia.blogspot.com/
http://www.doctorinterview.com/A.html
http://toptechnotes.blogspot.com/search/label/algorith... 阅读全帖

p*****y
发帖数: 69

来自主题: Database版 - Data Mining and OLAP

Data mining and OLAP are two different processes.
OLAP helps users to perform many kinds of queries, which are useful for
analysis. The input of OLAP is ad-hoc queries that are usually complex. The
output of OLAP is the query result -- tuples. The goal of OLAP is to support
all kind queries and to perform the queries efficiently and correctly. It
requires specific query evaluation algorithms and query optimization in
support of long-running, CPU intensive queries. The inputted queries are
usuall

b*s
发帖数: 82482

来自主题: LeisureTime版 - 这年头好的中文书真不多

一般是作者自己找：
A client typically establishes relationships with an agent through querying,
although the two may meet at a writer's conference, through a contest, or
in other ways. A query is an unsolicited proposal for representation, either
for a finished work or unfinished work. Various agents request different
elements in a query packet, and most agencies list their specific
submissions requirement on their Website or in their listing in major
directories. It typically begins with a query letter ... 阅读全帖

x*******3
发帖数: 8342

来自主题: PhotoGear版 - 请教mySQL一条查询语句，有包子！

s********e
发帖数: 893

来自主题: Database版 - 请教一个Union后结果显示顺序的问题

比如这样一个query
select first_name, last_name, Address_line1
from HRData
where first_name ='Tom' and last_name ='Cruise'
union
select first_name, last_name, Address_line1
from HRData
where address_line1 like '1234 Cherry St.';
结果显示可以是：
Tom Cruise 4321 Blueberry St.
Tom Cruise 1234 Cherry St.
John Smith 1234 Cherry St.
也可以是：
John Smith 1234 Cherry St.
Tom Cruise 4321 Blueberry St.
Tom Cruise 1234 Cherry St.
因为不能保证第一个query的结果就一定排在第二个query的结果的前面。
所以如果我想让第一个query的结果一定排在第二个的前面，我给每个query加了个
display order：
... 阅读全帖

L***s
发帖数: 1148

来自主题: Programming版 - python一问，怎么实现这个函数

需求提得有问题，会写程序的人一般不这么问
我猜你可能想要下面的效果，猜得不对你自己酌情修改
In [4]: class Foo (object):
...:
...: def __init__ (self, raw_dict):
...: self.num_to_string_set = {}
...: for tup, string in raw_dict.iteritems():
...: for num in tup:
...: self.num_to_string_set\
...: .setdefault(num,set())\
...: .add(string)
...:
...: def query (self, *nums):
...: assert len(nums) > 0
...: ... 阅读全帖

h******o
发帖数: 334

来自主题: Programming版 - 请帮我看看这个java method? 一直不正常运行

一个只是column sorted的2D array,用binary search查找一个element出现的次数。
多谢帮助！
public static int count(int[][] array, int query) {

int searchTotal = 0;
for (int c=0; c < array.length; c++){
searchTotal += biSearch(array, query, c);
}

return searchTotal;

}
private static int biSearch(int[][] array, int query, int row) {
// create a 1D array to hold the entries of 2D array's column
int[] column = new int[array.l... 阅读全帖

k****n
发帖数: 369

来自主题: JobHunting版 - 某大公司面试题

so you have a set of (query => list of search results with "Click" info),
and he want to find the similarities between queries, right?
The first straightforward one is, if Qa => Cx, Qb => Cx, then Qa is similar
to Qb.
Furthermore, the Query and URLs can form a graph, with edges defined as
E(Q, URL) where Query lead to a URL. The URLs can be connected if they
are returned in one query using certain weighting strategy.
After this simplification, we can run an all-source shortest path
in this graph... 阅读全帖

S*******0
发帖数: 198

来自主题: JobHunting版 - 贡献邮件面试题(Web Development)

1. Deadlock describes a situation that two or more threads (processes) are
blocked forever, waiting for each other.
Causes: one thread needs to visit the resource that another thread is
possessing and vice versa.
Effects: If deadlock happens, the threads involved will hang there forever
in an undesired status. Deadlock should be avoided.
2.
public ArrayList getToyotas(ArrayList cars)
{
if(cars == null) return null;

ArrayList toyotas = new ArrayList();
for ... 阅读全帖

I*****8
发帖数: 37

来自主题: JobHunting版 - Palantir新鲜面经

也没怎么看懂，肯定是还要问清楚一点才能答，
我的想法估计是：判断给的string位数和int位数，string大出来的位数直接输出，剩
下的string和int取模，输出模的第一位，如果给的int位数不为1，则再输出'*'.写的
时候估计要注意两个string取模的部分。
query('A0000000',2) ->'A0000000'
query('A0000001',2) ->'A0000001'
query('A0000002',2) ->'A0000000'
query('A0123456',21)->'A0123401*'
query('A6543250',32)->'A654321*'
query('A0054321',2000000)->'A0*'
query('A5432101',2000000)->'A1*'

z****p
发帖数: 18

来自主题: JobHunting版 - G被锯，电/店面面经

Here is the O(log N) solution:
Key observations:
-The solution is "monotonic" in the following sense: if the query "range" is
29.9 and the solution is 100 points, then when the query "range" becomes 30
, the solution is guaranteed to be >= 100.
-We can "pre-compute" the answers to all the possible query "ranges", put
them in a data structure, and look up the data structure when a new query "
range" is asked for.
Solution details: (W.L.O.G., assuming query "range" <= 180 degree)
1. For each PAIR ... 阅读全帖

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

前段时间骑驴找马终于告一段落，感觉本版的技术贴和面经贴帮助非常之大，也非常感
谢共享资源的各路大牛。希望提供一些信息和个人感受给还在找工的童鞋，有帮助最好
，但是毕竟本人资历尚浅，如果有不对的地方也请轻喷。
背景：
ms毕业不到两年
主要申请公司：
offer：facebook，google，uber，palantir，sumo logic，walmartlab，yahoo，
amazon，apple
reject：dropbox
主要几个包裹：
U： 145k base + 25k股 RSU
F： 150k base + 40k signon + 10%bonus + 260k美元 RSU
W： 165k base + 50k signon + 20%bonus + 35k美元 RSU每年（
这个略复杂，相当于每年35k美元RSU的refresh，但是每次refresh分四年给）
再上各个公司的面经和感受：
Yahoo：
最早面的公司，面的是Flurry Team，Yah... 阅读全帖

f*******r
发帖数: 976

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

恭喜，都是好包袱！

关键字: 面经
发信站: BBS 未名空间站 (Sat Jun 13 17:27:31 2015, 美东)
前段时间骑驴找马终于告一段落，感觉本版的技术贴和面经贴帮助非常之大，也非常感
谢共享资源的各路大牛。希望提供一些信息和个人感受给还在找工的童鞋，有帮助最好
，但是毕竟本人资历尚浅，如果有不对的地方也请轻喷。
背景：
ms毕业不到两年
主要申请公司：
offer：facebook，google，uber，palantir，sumo logic，walmartlab，yahoo，
amazon，apple
reject：dropbox
主要几个包裹：
U： 145k base + 25k股 RSU
F： 150k base + 40k signon + 10%bonus + 260k美元 RSU
W： 165k base + 50k signon + 20%bonus + 35k美元 RSU每年（
这个略复杂，相当于每年35k美元RSU的refres... 阅读全帖

u***8
发帖数: 1581

来自主题: JobHunting版 - 一个spring／hibernate加了个db的问题

其实不是加了一个db，是在一个现存的db里面加了一个table。我仿写了一个class 实
现了BaseEntity，然后该要有的annotation我也都有了。可是，就是无法取出里面的数
据。
createNamedQuery也失败了。不知道为什么，在class里面我也加了@NamedQuery A ,
我尝试加如现存的其他entity的namedQuery B，可以创造query B，可是这个query A
就是Named query not found。我只有用local的string来建query才可以，below:
final EntityManager em = emf.createEntityManager();
String query = "select * FROM packageName.Asomething asomething";
final Query a_query = em.createQuery(query);
a_query.getResultList(); //就是没结果出来，数据出不来。
加了... 阅读全帖

s********y
发帖数: 161

来自主题: Immigration版 - 大家帮助看看eb1b petition letter

不靠谱公司律师拖了好久起草的，大家帮看看，还有哪些可以补充提高的。谢谢。
eb1b基本信息
7 papers(3一作，google scholar总引用138，其中一篇98)，1 poster, 外加master和
phd论文充数
review 36次for 10个会议和journal
7推荐信，4独立
Contingent upon your approval of this petition, x company is offering
continuing, permanent at will employment to Dr. xxx to continue his path-
breaking research work in Data Analysis, Distributed Computing, and Data
Mining, and its application to improving the security algorithms and state-
of-the art techniques for protecting the information c... 阅读全帖

h****h
发帖数: 123

来自主题: Hardware版 - ASUS N66U每天几乎同个时间浏览器不能上网

路由是原版固件，已升级。每天晚上10点左右Chrome显示DNS_PROBE_FINISHED_BAD_
CONFIG等错误，其他浏览器也不能上网，但是qq还能上。绕开路由直接连modem好像没
有任何问题。
查了一下路由的log，发现不能上网的时间点附近状态如下，感觉是Maximum number of
concurrent DNS queries reached导致的：
May 6 21:58:11 kernel: eth2: received packet with own address as source
address
May 6 21:58:14 ntp: start NTP update
May 6 21:58:32 nmbd[816]: [2015/05/06 21:58:32, 0] nmbd/nmbd_become_lmb.c:
become_local_master_stage2(392)
May 6 21:58:32 nmbd[816]: Samba name server RT-N66U is now a local master
browse... 阅读全帖

S***k
发帖数: 370

来自主题: Programming版 - C# 访问数据库的问题

Linq 不能同 EF 简单划等号。不用EF也一样可以用linq.linq to dataset, linq to
xml 也是linq。
EF的缺点还是很明显的。前面提到的delete的问题，还有内存不够的问题我都遇到过。
个人认为在做架构的时候还要注意EF并不能完全支持sql server 的特性。一个简单的
例子，你可以试试建 EF 到adventureworks2008。product.document 那个table就没法
加进去，因为EF不支持HierarchyID。adventureworks2008是微软的sample DB，结构已
经算简单的了。如果database已经存在若干年，不是就着EF设计的，还是慎用EF。
做database的不喜欢EF，个人认为是因为有些人写EF linq query根本就不顾及到了
database变成了什么样的sql query。一旦有了一个query整个大table的过来，
db admin 没有办法马上解决，只能返回给程序员重写，重compile。其间的扯皮就不必
说了。我遇到过的最糟糕的一次，是先写好sql query, 由dir... 阅读全帖

f*********9
发帖数: 718

来自主题: Programming版 - C# 访问数据库的问题

我们是这样解决这个问题的：
- dba 负责所有复杂的数据查询（query）。
- 把dba写好的store procedure，引入EF（Import function），映射到同一entity上面
这样就2个层之间职责就界定的很清楚了。
EF有很多的问题(BUG)和设计缺陷，我自己遇到大约有7-8个。可是个人还是觉得EF是OR
mapping
中最喜欢的。
jquery 好吧，可是上次我看还有几百个bug等着。
能不能系统的谈谈怎样合理运用ef？或者推荐一个OR mapping工具，或OR mapping主意
多谢交流

做database的不喜欢EF，个人认为是因为有些人写EF linq query根本就不顾及到了
database变成了什么样的sql query。一旦有了一个query整个大table的过来，
db admin 没有办法马上解决，只能返回给程序员重写，重compile。其间的扯皮就不必
说了。我遇到过的最糟糕的一次，是先写好sql query, 由director坐在某程序员旁边
监督，让该人写一个能翻译成写好sql query 的 EF linq query... 阅读全帖

J****R
发帖数: 373

来自主题: Programming版 - 大牛们，请教大数据系统如何架构

storm, spark, hadoop 可以用来做aggregation，具体要看你们的user case。如果用
spark, hadoop接在data store后面做query的话，要看你们出什么类型的report，要求
的响应时间是多少。如果是customized ad hoc query，并且要实时显示report，那用
这些query就不太方便了，可能自己写一个query engine还好一点。如果query的数据量
不小的话，最好自己写点code 用coprocessor,user defined functions 这类东西处理
，能有效的减少响应时间。
c*,hbase这些东西也不是包治百病的，query的数据量大了一样很慢，还是得把计算挪
到cluster上去比较有效。如果你们的report比较固定，那可以用空间换时间，做点pre
process，query起来不管数据量大小都会很快。

b********n
发帖数: 29

来自主题: JobHunting版 - Hackerrank Arithmetic Progressions

花了两个礼拜才做出来。。。各种查资料。。。
数学上面，得到恒定差的次数是p_1+...+p_n, 得到的定差结果是d1^p1*d2^p2...*dn^
pn*(p1+..._pn)!
这个公式可以通过自己手推，把2个等差数列乘起来，你会发现求两次差就可以得到定
值，把3个乘起来，...一直到把n个乘起来，得到的求差次数是一个和式（在这个网页
里面有http://www.mymathforum.com/viewtopic.php?f=40&t=7993）而这个和式正好等于(p1+...+pn)!
下面的问题就在于提高运算效率，有三点
第一点就是如何maintain任何一个区间里的(p1+...+pn)和d1^p1*...*dn^pn. 这个因为
是range query，用segment tree得到，可以得到lg(n)的update和query time.如果每
次query都需要求一遍和的话，需要O(n)时间，如果提前算prefix sum的话，query是O(
1)，可是update v需要O(n)，所以两种方法都会超时，必须同时有O(lgn)的update和
query time... 阅读全帖

f*****n
发帖数: 35

来自主题: JobHunting版 - rocket fuel 面试题

一道RF的面试题：
有N个ad, (n是million级别的)
每个ad的表示为（id, value）
比如：
121 -> new
130 -> new york
145 -> new york time square
156 -> new york department store
假设有一 query = new york department store
规定ad中每个单词都包含在query中时，这个ad为valid （即ad是query的子集）
上述例子中ad 121， 130， 156是valid的，145是invalid
问：
如何设计一个solution，使得
vector getValid(string query) （返回所有valid的ad的id）这个函
数在worst case时复杂度也能小于O(n)，面试官的说法是does not depend on N.
整个solution可以分两个阶段，第一阶段是preprocessing，这个可以是O(n)的，但是
第二阶段query阶段，也即调用函数getValid()，必须小于O(n)
... 阅读全帖

f*****n
发帖数: 35

来自主题: JobHunting版 - rocket fuel 面试题

z****e
发帖数: 54598

来自主题: JobHunting版 - 一道design题

嗯，大猩猩的意思我大概明白了
但是query term一般指的是用户输入的关键字
其他的叫做co term，这种一般有query expansion的说法
比如world cup 2014 final game
真正输入的query term估计只有world cup两个，剩下的是系统自动expand的
比如crimea，然后系统会自动补足其他的co term，比如conflict这些
这里面文章很大，不仅仅是删掉long tail就好了的
而且你只删超过50个字符长的搜索，这个估计也不会有太大优化的作用
因为很少有人会输入超过20个或者50个字符长度的搜索酱紫
当然删除低频词是必需的，要不然内存会增长得很快
但是我觉得存最近30分钟得数据
也是必需的
所以一读一写，这里就自然涉及读写冲突问题，这就是为什么会说到concurrent处理
而且query log本身是很重要的一个query expansion的来源
其实真正query expansion，比如crimea->crimea conflict
这种都是通过mining log得到的，所以有些低级和原始，为学术界所不齿
但是用... 阅读全帖

t*********l
发帖数: 566

来自主题: SanFrancisco版 - Google Instant

I think the point for such features is to beat and get rid of "SEO" which is
now trying to pollute the web ranking by intention.
To do this, the auto generated queries will NOT be fully from historical
queries, or Suggested queries as you guys mentioned, since as this feature
goes prevailing, auto generated queries will dominant the queries input by
user.
queries are keywords, and this industry is a keywords industry.

C********n
发帖数: 346

来自主题: SanFrancisco版 - 富临门开在山景城了

哈哈，很好奇是什么样子：）
看yelp上这几家都还不错，以后试过去吧。
http://www.yelp.com/biz/bocadillos-san-francisco#query:spanish%20restaurant
http://www.yelp.com/biz/piperade-san-francisco#query:spanish%20restaurant
http://www.yelp.com/biz/zarzuela-san-francisco#query:spanish%20restaurant
http://www.yelp.com/biz/alegrias-san-francisco#query:spanish%20restaurant
http://www.yelp.com/biz/lalola-bar-de-tapas-san-francisco-2#query:spanish%20restaurant
http://www.yelp.com/biz/contigo-san-francisco-2#query:spanish%20restaurant

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 第一次来三藩可以玩点什么？

上面这个blog写的不错但是添加太多私人感情实在太长所以给你下面我的
opinion:
I assume you have a rental car with you but even if you don't you can
always
take Bart.
周围的餐馆
推荐你去吃IPPUKU，吃串烧的日本菜，价钱是贵一点但是非常好吃。你要是想吃别的周
围所有的餐馆都还算不错除了中国菜！实在是给外国人做的。还有一家叫做ZABU ZABU
是all you can日式火锅也不错你可以根据你时间看看每天吃什么。你还可以开车或着
做BART去pacific east mall BART的话在El Cerrito Plaza站下推荐你吃168，台湾小
吃还不错，或者100%cafe。那个mall里面还有很多别家的餐馆可以考虑。
IPPUKU
http://www.yelp.com/biz/ippuku-berkeley-2#query:yakitori
ZABU ZABU
http://www.yelp.com/biz/zabu-zabu-berkeley-2
168 Taiwanese... 阅读全帖

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 旧金山附近吃喝玩guide

周末坐飞机到NY出差，飞机上实在无聊就把我以前在版上回关于旧金山吃喝玩的贴从新
整理了一下。大家看看有什么要补充的没有。希望以后再有人问旧金山附近玩什么都参
考这个吧。谢谢大家支持！
老在版里传来传去的这个blog写的不错但是添加太多私人感情实在太长所以给你下面我的
opinion，我整理了一下希望很全但是有问题随时inbox我吧。
住：（旧金山市里VS 机场附近）
老有人问旧金山住在哪里好，其实用priceline和 hotel.com找旧金山市里的酒店有时
候并不贵所以还是先看看价钱要是太贵住在机场附近其实很方便的，有很多价钱好的酒
店，我一般是先看hotel.com了解价钱，然后去酒店自己的网站预订或者直接打去酒店
前台（注意是前台不是800预订的号码）有时候他们前台的价格比酒店网站价格还便宜
。一般机场附近的酒店都有shuttle去接你加上机场附近的酒店离一个华人聚集的地方
不远。要是住的话我建议你找el camino real上面between Millbare Ave 和 San
Burno Ave 之间的酒店。（用google map 可以看看都有什么选择）
行：租车... 阅读全帖

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 请问：去SF旅游需要租车么

主要看你住在哪里，要是在旧金山城里面那基本不用，要是旧金山外面那还是租车好点
，加上旧金山的停车费不像NY那样离谱。要是你住的地方周围有enterprise租车的可以
租一天，加上人家可以接送你。
下面是我以前写的看看参考一下吧：
住：（旧金山市里VS 机场附近）
老有人问旧金山住在哪里好，其实用priceline和 hotel.com找旧金山市里的酒店有时
候并不贵所以还是先看看价钱要是太贵住在机场附近其实很方便的，有很多价钱好的酒
店，我一般是先看hotel.com了解价钱，然后去酒店自己的网站预订或者直接打去酒店
前台（注意是前台不是800预订的号码）有时候他们前台的价格比酒店网站价格还便宜
。一般机场附近的酒店都有shuttle去接你加上机场附近的酒店离一个华人聚集的地方
不远。要是住的话我建议你找el camino real上面between Millbare Ave 和 San
Burno Ave 之间的酒店。（用google map 可以看看都有什么选择）
行：租车vs 公共交通
其实在美国无论去哪里玩最好还是租车，毕竟美国公共交通还是不那么发达。要是住在
旧金山市里... 阅读全帖

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 三藩旅游询问

1.几天比较合适？
你只是想玩旧金山市里还是周围都要去，像napa，muir woods，point reyes等等？要
是周围都去的话4到5天足够了。要是就旧金山市里的话2天就好。
2.买CITY PASS是否有必要？
City Pass上面说的那些旅游景点你会都去吗？个人觉得还是值。租车的话你可以就租
一天那种。
3.住在哪一区比较方便？
你要是不嫌麻烦就住在机场附近，然后坐BART到旧金山市里，在powell station下。因
为机场酒店大部分有免费shuttle送你到机场或者BART站。要是住在旧金山市里的话就
选union square附近或者fisherman’s wharf附近，日本城周围也还算可以。用hotel.
com看看吧
4.哪些地方比较推荐去看看？怎么安排比较紧凑？
看看我下面写的旅游景点推荐
5.三藩之后计划往北开到REDWOOD NATIONAL PARK，计划住一、二晚，请问住哪个城市
比较好？孩子喜欢有BEACH的地方，请问哪个城市的BEACH比较好玩？
建议你早上开车离开旧金山，然后第一站停Fort Bragg和Medocino，那里有个叫glas... 阅读全帖

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 从三藩市去红木森林

没有听说有半天来回的。
虽然说是只有200多miles但是一路平均的速度也就55左右。还是算了吧。不如去Muir
Woods看看，差不多的感觉。离得又进。要是去muir wood的话建议你早点到，要是
weekday最好930am之前到，要是weekend就只能坐他们的shuttle除非你8am就到。
下面是我以前写的，参考一下吧：
老在版里传来传去的这个blog写的不错但是添加太多私人感情实在太长所以给你下面我的
opinion，我整理了一下希望很全但是有问题随时inbox我吧。
住：（旧金山市里VS 机场附近）
老有人问旧金山住在哪里好，其实用priceline和 hotel.com找旧金山市里的酒店有时
候并不贵所以还是先看看价钱要是太贵住在机场附近其实很方便的，有很多价钱好的酒
店，我一般是先看hotel.com了解价钱，然后去酒店自己的网站预订或者直接打去酒店
前台（注意是前台不是800预订的号码）有时候他们前台的价格比酒店网站价格还便宜
。一般机场附近的酒店都有shuttle去接你加上机场附近的酒店离一个华人聚集的地方
不远。要是住的话我建议你找el camino real... 阅读全帖

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 6月底在SF要呆两天，请问旅馆、旅游及行程安排

以前写的，供你参考，没有楼上的好但是也算可以了，有问题email吧
住：（旧金山市里VS 机场附近）
老有人问旧金山住在哪里好，其实用priceline和 hotel.com找旧金山市里的酒店有时
候并不贵所以还是先看看价钱要是太贵住在机场附近其实很方便的，有很多价钱好的酒
店，我一般是先看hotel.com了解价钱，然后去酒店自己的网站预订或者直接打去酒店
前台（注意是前台不是800预订的号码）有时候他们前台的价格比酒店网站价格还便宜
。一般机场附近的酒店都有shuttle去接你加上机场附近的酒店离一个华人聚集的地方
不远。要是住的话我建议你找el camino real上面between Millbare Ave 和 San
Burno Ave 之间的酒店。（用google map 可以看看都有什么选择）
行：租车vs 公共交通
其实在美国无论去哪里玩最好还是租车，毕竟美国公共交通还是不那么发达。要是住在
旧金山市里租车可以选择一天一天的租比如像enterprise在旧金山市里有很多店，你可
以租一天，他们还会来你住的地方接你。
玩：
旧金山
Union square—Chi... 阅读全帖

m*******4
发帖数: 884

来自主题: SanFrancisco版 - 在三番玩4天，租车，住sfo旁边旅馆方便么？

之前写的，参考一下吧
要是你周末来玩车位会紧张但是不会不好找。
住：（旧金山市里VS 机场附近）
老有人问旧金山住在哪里好，其实用priceline和 hotel.com找旧金山市里的酒店有时
候并不贵所以还是先看看价钱要是太贵住在机场附近其实很方便的，有很多价钱好的酒
店，我一般是先看hotel.com了解价钱，然后去酒店自己的网站预订或者直接打去酒店
前台（注意是前台不是800预订的号码）有时候他们前台的价格比酒店网站价格还便宜
。一般机场附近的酒店都有shuttle去接你加上机场附近的酒店离一个华人聚集的地方
不远。要是住的话我建议你找el camino real上面between Millbare Ave 和 San
Burno Ave 之间的酒店。（用google map 可以看看都有什么选择）
行：租车vs 公共交通
其实在美国无论去哪里玩最好还是租车，毕竟美国公共交通还是不那么发达。要是住在
旧金山市里租车可以选择一天一天的租比如像enterprise在旧金山市里有很多店，你可
以租一天，他们还会来你住的地方接你。
玩：
旧金山
Union square—Chinat... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天