z*******3 发帖数: 13709 | 1 datastore里面不提供unique index
其他人建议要unique的字段变成pk
但是我的做法是这样
我首先让所有跟datastore里面打交道的dao class统统singleton掉
这个在guice里面很容易实现,用.in(Singleton.class)就好了
如果自己写的话,用enum可以很容易实现
http://www.vogella.com/articles/GoogleAppEngineJava/article.htm
然后再在外面写一层service类以调用这些dao
也同样对这些service类singleton
然后再对于需要检查数据库中不存在后再create的方法
做synchronized
这样保证检查和插入是线程安全的,排除了并发的干扰
这样就可以不用transaction了
在程序这一层控制事务,而不是依赖datastore |
|
R******d 发帖数: 1436 | 2 有个文本,格式如下:
1 ab123>ac124
2 am501
3 ax230>ay241>az257
目标格式为:
1 ad124
2 am501
3 az257
也就是说第二个colum取最后一个>的字段,如果没有>,则取唯一的那个。
请问用awk怎么完成,谢谢 |
|
o***g 发帖数: 2784 | 3 如果一个表里面有hundreds of million条记录,假设只有insert和select操作
平均每条记录两百个字节的样子,字段并不多,假设5个。
一般的机器一般的数据库是否能处理的了?insert和select能在什么级别的时间内完成?
多谢 |
|
y****r 发帖数: 17 | 4 【 以下文字转载自 Working 讨论区 】
发信人: yocker (no), 信区: Working
标 题: 遇到一个比较棘手的SQL query,
发信站: BBS 未名空间站 (Mon Jul 16 13:50:49 2007), 转信
有个table有三个字段如下:
===================
name city state
张三 ** **
李四
王二
......
==================
现在需要造出一个新的table/view
把同city,state的name挑出来,放在同一个row
例如:
name1,name2,name3......city, state
张三 李四 , 王二...... SF California
假设一个最大上限同city,state的names小于100.
即name1.....name100 |
|
g*********s 发帖数: 1782 | 5 比如某个虚拟世界里,只有四种:普通人,盲人,聋哑人,还有既盲又聋哑人。70%普
通人,20%纯盲人,5%纯聋哑,5%盲加聋哑。
那么应该如何设计类呢?
方案一:
普通人做基类,盲人/聋哑人从普通人派生,既盲又聋哑的从盲/聋哑多继承,构成菱形
继承图。
方案二:
定义普通人类,盲属性类,聋哑属性类。在普通人类里定义两个指针分别指向盲属性类
和聋哑属性类,初始化为NULL。之所以这样做而不是用组合,是因为大部分是普通人,
这样可以减少内存使用。
方案三:
普通人做基类,盲人从普通人派生,聋哑人从盲人派生。普通人类中定义残疾属性,其
值为四种组合之一。对于纯聋哑人,虽然从盲人派生,但通过残疾属性可以识别出来。
原型实现是方案三,应该是当时开发时打补丁的结果。方案一看起来挺自然的,但是涉
及多继承,应该也不是个好方法。
目前倾向于方案二。但方案二的问题是多了两个指针字段,内存消耗比较多。而且如果
用方案一,引入虚函数的话,也有虚函数表指针的开销。
那么继承应该在什么场合用呢?感觉情况稍微一复杂,继承就不好用了。 |
|
|
r****t 发帖数: 10904 | 7 这种 damaged csv file, 无论你用什么搞都会很麻烦的。
写这些 csv 的人,为什么不用 python csv module? 里面有必要的时候自动给字段加
引号的。
问题出在写数据的时候,读数据的人来 fix 很麻烦。 |
|
n*w 发帖数: 3393 | 8 比如csv文件们有a,b,c,d,e,...字段。想要动态维持一个string数组,包含有类似如下
规则:
isdate(a) = 1
b+c > d
ismoney(e) = 1
f between 300 and 800
等等 |
|
s********k 发帖数: 6180 | 9 【 以下文字转载自 CS 讨论区 】
发信人: silverhawk (silverhawk), 信区: CS
标 题: 高人指点怎么在embedded sys(atmel 系列)上写内存管理
发信站: BBS 未名空间站 (Fri Oct 29 12:00:50 2010, 美东)
Datasheet 上写明了internal RAM的起始地址,一共4K,从来没有自己处理过内存管理
问题,现在想写一个简单的内存管理,就是实现malloc,free一类的功能。初步决定用
链表,每个struct表示自己这一块的地址大小和下一块的地址。但是不知道不知道这里
面还有没有stack,heap,static一类的概念,比如在这4K的RAM上,怎么保证我开的内
存和static常量,或者bss字段的未初始化常量不冲突,还是直接内存顺序读取就是了
(4K相当于一个heap,我再自己划分小块)。对OS有一些了解但是不是很熟,请教了 |
|
f********i 发帖数: 563 | 10
上百兆字节了
用objdump你可以看到各个字段的容量 |
|
l********a 发帖数: 1154 | 11 看你也是firefox,怎么没弄个httpfox插件看header呢?
你的代码有2个问题:
1. 提交的时候,密码对应的字段不是password,而是passwd,用httpfox能看到的
2. 登陆页面的request地址有误,不是http://www.mitbbs.com/mitbbs_login.php,而是http://www.mitbbs.com/newindex/mitbbs_bbslogin.php.也是httpfox看的.
下面附上调试通过的代码
import urllib, urllib2, cookielib
username = 'username'
password = 'password'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
body = (('id', username),
('passwd', password),
)
headers={
'User-age... 阅读全帖 |
|
b*******s 发帖数: 5216 | 12 一个表A存储了多条记录,每个记录有3个字段,分别是id(可以重复),timestamp,和
value
记录是按照timestamp的顺序依次插入的。目前要求:删除那些id不是连续出现的或者
值不是连续出现的记录
给个例子
time id value
11:00 1 1
11:01 2 2
11:02 2 2
11:03 3 1
11:04 2 2
11:05 2 2
11:06 2 3
11:07 1 1
11:08 2 2
处理完应该是
11:01 2 2
11:02 2 2
11:04 2 2
11:05 2 2 |
|
z****e 发帖数: 54598 | 13 现在persistence上nosql不完善
各种牺牲
但是毫无必要
比如你可以做一个nosql
这个nosql呢,可以自由定义哪些文件是自由无格式的存放
哪些是格式存放的,在格式存放的基础之上
哪些字段是可以建index的
这样就把数据存放成三层,有index的最快,无格式存储的最慢
然后你还可以针对格式存储的部分做transaction支持
还有cache什么的
换句话说,你可以参考内森的构架
做一个理论上满足cap所有需求的nosql db出来
而不是像内森一样,折腾半天 |
|
n*****t 发帖数: 22014 | 14 你丫写的网站有 2000 多字节的 url 吧?反正肯定不是正常人写的。稍微看过点 DB
书的人都知道 unique 是怎么实现的,你个 SQL 都不会的煞笔还是别丢人了。
接着说说 tinyurl 用什么存储 url 的,是不是还有一个字段叫 hashkey 啊,你当设
计的人跟你丫一样煞笔啊
了。 |
|
n*****t 发帖数: 22014 | 15 果然全堆啊,还专门弄个字段存 hash,啧啧啧
刚才不是还鸭子嘴说不用 db 存 url 吗?来,接着证明 tinyurl 用的是 oracle 不是
mysql 更不是 sql server |
|
n*****t 发帖数: 22014 | 16 放狗查一下 mysql 和 sql server 的 varchar,再告诉我哪个煞笔做了 unique 还再
用一个字段存 hash |
|
n*****t 发帖数: 22014 | 17 哪个煞笔说 url 不能用 varchar 存的?哪个煞笔说 hash 要用一个字段存的?url 长
度超过 2k 的只有你这种煞笔写得出来,没有唯一 |
|
n*****t 发帖数: 22014 | 18 鸭就是个半瓶醋,DB 做了 index 后,select 就是用的 btree 或者 hash,拌醋非得
画蛇添足再加个字段存 hash key。其实我故意一开始没告诉鸭,就看鸭的下限究竟是
多少。
说鸭拌醋真是侮辱醋了,我向无辜的醋表示道歉 |
|
b*******s 发帖数: 5216 | 19 看你的具体应用了,起码在很多情况下,scale out还是能做的
其实需要用到join的,可以多表合并成一个表,不需要查询的字段都放到blob里面 |
|
a9 发帖数: 21638 | 20 1,还是用wget试一下看看。
2, 写一个response.contentlength试试
3, 你的数据库字段什么类型? |
|
x****k 发帖数: 2932 | 21 如何编写无法维护的代码
让自己稳拿铁饭碗 ;-)
– Roedy Green(翻译版略有删节)
简介
永远不要(把自己遇到的问题)归因于(他人的)恶意,这恰恰说明了(你自己的)无
能。 — 拿破仑
为了造福大众,在Java编程领域创造就业机会,兄弟我在此传授大师们的秘籍。这些大
师写的代码极其难以维护,后继者就是想对它做最简单的修改都需要花上数年时间。而
且,如果你能对照秘籍潜心修炼,你甚至可以给自己弄个铁饭碗,因为除了你之外,没
人能维护你写的代码。再而且,如果你能练就秘籍中的全部招式,那么连你自己都无法
维护你的代码了!
(伯乐在线配图)
你不想练功过度走火入魔吧。那就不要让你的代码一眼看去就完全无法维护,只要它实
质上是那样就行了。否则,你的代码就有被重写或重构的风险!
总体原则
Quidquid latine dictum sit, altum sonatur.
(随便用拉丁文写点啥都会显得高大上。)
想挫败维护代码的程序员,你必须先明白他的思维方式。他接手了你的庞大程序,没有
时间把它全部读一遍,更别说理解它了。他无非是想快速找到修改代码的位置、改代码
、编译,然后就能交差,... 阅读全帖 |
|
|
g*******t 发帖数: 7704 | 23 chapterstatus加索引,where里的字段都加index,
google搜索快,是全文索引,网页里每个word都索引,狗狗的特长就是这些索引数据的
存储,读取,
就是今天大数据的起源, |
|
m******u 发帖数: 12400 | 24 感觉软软做事情不用心,取名这一块就很恶心。common language runtime(CLR)字面
上的意思和实际用途能联系起来么?
还有dot net什么的。C#里面的get、set定义在字段下面不能说好坏,但C#不是号称是C
++继承么,这么不像java那样,定义成方法呢? |
|
n*********d 发帖数: 1603 | 25 这个看具体ftp 程序的实现吧,有些ftp可能在上传途中都是把文件存在缓存区,上传
完毕了在目录下才能看到完整的文件,lz最好做几次实验看看实际情况是怎样的。不然
就得修改下客户端加上传完毕的字段了 |
|
z****e 发帖数: 54598 | 26
虽然也是卖,但是人家可是real time的服务
强太多了好不好?你的网站能real time显示货物的location么?
如果你能做到这个功能,估计会比较有吸引力
另外,payment的渠道本身很值钱,支付宝的价值非常高
你应该思考一下我说的,顺便告诉你上面那个问题的答案
到银行的接口协议是iso8583,可以定义9000个字段
其中一半允许银行自定义,所以大多数时候你搞不定
只能花钱买服务,比如支付宝或者银联,这样接口协议就简单了
可以用https之类的,但是你就得给他们插管吸血
如果你自己手头上有这么一个东西,你就可以卖给其他电商了
这个也有轮子,但是是收费的,叫做jpos,基本上暴露给你们这种下游电商的
都是经过gateway一层的,所以这里很慢,最快也要2-3s
所以你前面在计数器上省那么几个ms是没有什么意义的 |
|
w***g 发帖数: 5958 | 27 michigan不能搞lendingclub,但是可以搞prosper。
发现有个API可以下数据。可以把历史数据搞过来做机器学习,
然后对listing进行选择。不知道有没有搞头。
Update:
他们很坏,现在能下到的data,listing和load已经分开了。
这样就没法做机器学习了。
Update2:
能下到的listing data里面字段少了好多。但是线上还是可以看到
borrower credit profile。不知道有没有肯能自己连续crawl,
然后等load data available了以后,通过date和amount把记录
对上。这个估计能搞的话也是苍蝇肉。
Update3:
发现光用listing data就可以做预测。见下面有图的帖子。
坚决相信天下没有免费的午餐,应该还有别的没有考虑到的问题。 |
|
w***g 发帖数: 5958 | 28 你说的是feature? 下面是我在线用API拿到的一个样本。
批量下载的历史数据里好像字段不完全一样,city之类的也是有的。
{
"amount_delinquent": 0.0,
"amount_funded": 3498.68,
"amount_participation": 0.0,
"amount_remaining": 7501.32,
"bankcard_utilization": 0.33,
"borrower_apr": 0.07493,
"borrower_city": "JACKSONVILLE",
"borrower_metropolitan_area": "(Not Implemented)",
"borrower_rate": 0.0613,
"borrower_state": "FL",
... 阅读全帖 |
|
w***g 发帖数: 5958 | 29 michigan不能搞lendingclub,但是可以搞prosper。
发现有个API可以下数据。可以把历史数据搞过来做机器学习,
然后对listing进行选择。不知道有没有搞头。
Update:
他们很坏,现在能下到的data,listing和load已经分开了。
这样就没法做机器学习了。
Update2:
能下到的listing data里面字段少了好多。但是线上还是可以看到
borrower credit profile。不知道有没有肯能自己连续crawl,
然后等load data available了以后,通过date和amount把记录
对上。这个估计能搞的话也是苍蝇肉。
Update3:
发现光用listing data就可以做预测。见下面有图的帖子。
坚决相信天下没有免费的午餐,应该还有别的没有考虑到的问题。 |
|
w***g 发帖数: 5958 | 30 你说的是feature? 下面是我在线用API拿到的一个样本。
批量下载的历史数据里好像字段不完全一样,city之类的也是有的。
{
"amount_delinquent": 0.0,
"amount_funded": 3498.68,
"amount_participation": 0.0,
"amount_remaining": 7501.32,
"bankcard_utilization": 0.33,
"borrower_apr": 0.07493,
"borrower_city": "JACKSONVILLE",
"borrower_metropolitan_area": "(Not Implemented)",
"borrower_rate": 0.0613,
"borrower_state": "FL",
... 阅读全帖 |
|
l******0 发帖数: 244 | 31 我有三个表,Term, Category, Category_Term, 多对多关系,很简单,Term 和
Category 只有 ID and Name 两个字段,Category_Term 是 intersection table, 存
储对应 Term and Category ID 的外部键。
使用 Load Data Local Infile,前两个表的 load 速度还比较快,5 百万的记录也就
几分钟导进去了。但是 Category_Term 出奇的慢,3 三百万的记录,几个小时才完。
数据库为 MariaDB (MySql), Linux.
难道向库中导数据的速度,跟表的结构有关。即使如此,也不应该这么慢。这可能是什
么原因? |
|
n*****t 发帖数: 22014 | 32 表里加个 removed 字段,定期 dump |
|
l******0 发帖数: 244 | 33 表只有两个字段,id and name,但有 5 百万记录。 使用了 Java Hibernate,代码:
CriteriaBuilder cb = em.getCriteriaBuilder();
CriteriaQuery criteria = cb.createQuery(Term.class);
Root term = criteria.from(Term.class);
criteria.select(term);
List terms = em.createQuery(criteria).getResultList();
Term 是实体类及数据库表。
8G 内存。5百万是个很大的数吗? |
|
n*w 发帖数: 3393 | 34 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
值值可能有少量出入。text字段写的有点不同,等等。
有没有可能用tensor flow 来做。也想借机会学习。
----------------
举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。 |
|
w********r 发帖数: 4193 | 35 发信的email server叫smtp server,和收信的email server是可以分开的。收信的
server必须要密码,而smtp server未必需要authentication。
这就好像现实生活中你去邮局取信需要证件,而寄信不需要,所以你可以冒名寄信干坏
事。
只是现在垃圾邮件这么多,大多数smtp server都要求authentication了。但是如果你
有意无意建了一台smtp server不需要验证用户身份,别人就可以利用它冒任何人的
email地址发垃圾邮件,因为发信人的地址其实只是邮件头里面的一个字段,smtp不管
它,就像你去邮局寄信时邮局不管你信封上寄信人的姓名地址一样。 |
|
u***************r 发帖数: 11227 | 36 发信人: hellotree(树先生), 信区: Security
标题: 电脑蓝屏了怎么办?
发信站: BBS未名空间站(Wed Sep 20 10:23:28 2017,GMT)
Win7操作系统有酷炫的界面和丰富的功能,受到很多朋友的喜爱,成为大家生活工作的
好伙伴。但是因为硬件和软件的各种原因Win7系统也会偶尔遇到蓝屏,由数字和字母组
成的蓝屏代码分别代表不同的含义,下面为大家介绍一些Windows 7蓝屏的处理方法以
及部分Windows7系统蓝屏代码和含义
Windows 7蓝屏产生的原因很多,但大多数往往集中在不兼容的硬件和驱动程序
有问题的软件、病毒等。遇到蓝屏错误时,可以尝试选用下面的方法。 重启系统
如果只是某个程序或驱动程序偶尔出现错误,重启系统后部分问题会消除。 检查硬
件
检查新硬件是否插牢,这个被许多人忽视的问题往往会引发许多莫名其妙的故障。如果
确认没有问题,将其拔下,然后换个插槽试试,并安装最新的驱动程序。同时还应对照
微软网站的硬件兼容类别检查一下硬件是否与操作系统兼容。
检查是否做了CPU超频,超频操作进行了超载运算,造成其内... 阅读全帖 |
|