z****n 发帖数: 22 | 1 假如项目处理用户数据文件, 每个记录里面有100个fields,项目在阶段A的时候
提取了10个fields,然后存到数据库。在阶段B,发现需要提取额外的fields 5个,
目前的办法是把用户数据文件重新处理一次,重新生成记录到数据库。感觉费时又费力。
有没有别的好的办法? | d****n 发帖数: 1637 | | i*****9 发帖数: 3157 | 3 难道不是100个 Field 都直接进列数据库?
:假如项目处理用户数据文件, 每个记录里面有100个fields,项目在阶段A的时候
:提取了10个fields,然后存到数据库。在阶段B,发现需要提取额外的fields 5个, | c******n 发帖数: 16666 | 4 re
既然都要用到就直接全扔进去算了
【在 i*****9 的大作中提到】 : 难道不是100个 Field 都直接进列数据库? : : :假如项目处理用户数据文件, 每个记录里面有100个fields,项目在阶段A的时候 : :提取了10个fields,然后存到数据库。在阶段B,发现需要提取额外的fields 5个,
| z****n 发帖数: 22 | 5 关键是raw field是需要处理的,比如normalized.
如果PM说要把一个新的映射,那还得重新全部处理数据库里面的记录。
【在 c******n 的大作中提到】 : re : 既然都要用到就直接全扔进去算了
| i*****9 发帖数: 3157 | 6 每个 field 一个 column family, 需要啥预处理直接在那个 column family 里面加新
的 column.
原始数据进no SQL 作为 ground Truth. 嫌 map reduce 太慢就拿 SQL 存一个需要的
View 在上面查。反正主数据存储不在SQL里,那有啥不满意就删了重建就好。
:关键是raw field是需要处理的,比如normalized.
:如果PM说要把一个新的映射,那还得重新全部处理数据库里面的记录。 | N*****r 发帖数: 94 | 7
力。
最简单的就是重新抽取 重新生成记录
【在 z****n 的大作中提到】 : 假如项目处理用户数据文件, 每个记录里面有100个fields,项目在阶段A的时候 : 提取了10个fields,然后存到数据库。在阶段B,发现需要提取额外的fields 5个, : 目前的办法是把用户数据文件重新处理一次,重新生成记录到数据库。感觉费时又费力。 : 有没有别的好的办法?
|
|