由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 请ML大神给点启发
相关主题
学习DEEP LEARNINGdeep learning做embeded system,业界动态或者公司
ML 需不需要搞懂那些数学这个IP在哪里
wdong的网站在我公司的黑名单上,LoL二爷看过来。
Pytorch靠谱吗?oracle coherence
[bssd]wdong,lightroom....来猜个东西goodbug和coltzhao大牛能不能给一个backend的定义?
马工能转数据分析师吗?10M persistent TCP connections
不想和阿三合作 怎么办?AngularJS vs Dojo
auto encoder 出来之后是不是没人再用PCA了感觉Scala要火
相关话题的讨论汇总
话题: 异常话题: pca话题: ml话题: security
进入Programming版参与讨论
1 (共1页)
l***p
发帖数: 358
1
最近要立一个关于安全方面的项目,想靠人工智能(本人机器学习这方面的知识基本为0)
用例:当检测并发现某个应用服务被异常访问时,提示安全隐患,建议或者自主apply
appropriate security policy
各位大神给个建议,有什么框架,近似的解决思路?
b****u
发帖数: 1130
2
收集足够多的“异常”数据才是最难的部分。Payment公司有做类似的工作,但人家的
数据量很大很大。

为0)
apply

【在 l***p 的大作中提到】
: 最近要立一个关于安全方面的项目,想靠人工智能(本人机器学习这方面的知识基本为0)
: 用例:当检测并发现某个应用服务被异常访问时,提示安全隐患,建议或者自主apply
: appropriate security policy
: 各位大神给个建议,有什么框架,近似的解决思路?

g****t
发帖数: 31659
3
知识为0就找人做吧。自己琢磨没大用,不划算。不如你外包给wdong的星宿演算公司。
绝对靠谱啊。
l***p
发帖数: 358
4
@guvest
已经发信加他为好友,工程(外包还是自己的团队实现)是后面的事情;现在需要讲个
故事,如果能POC些最好,否则PPT也是要的
所以需要思路
g****t
发帖数: 31659
5
既然是真是项目。正经项目。
既然素不相识,
我多句嘴。
你要故事。
可能最好的办法是看他的简历和公司介绍。
先给钱。
不然不合适。起码给个一小时若干刀的咨询费。几十刀也是个诚意。
交易关系要先有,不然后面的事容易没有逻辑。
另外我不认识wdong,所以不是托。


: @guvest

: 已经发信加他为好友,工程(外包还是自己的团队实现)是后面的事情;
现在需
要讲个

: 故事,如果能POC些最好,否则PPT也是要的

: 所以需要思路



【在 l***p 的大作中提到】
: @guvest
: 已经发信加他为好友,工程(外包还是自己的团队实现)是后面的事情;现在需要讲个
: 故事,如果能POC些最好,否则PPT也是要的
: 所以需要思路

w******k
发帖数: 299
6
哪里可以看到wdong简历和介绍?
w******k
发帖数: 299
7
我觉得难点是发现异常( anomaly detection)。一旦能正确判断是否异常,什么样的
异常,相应的security policy 选择就比较容易了。
w******k
发帖数: 299
8
另外还得看看手头有什么样的policy 可用。
w***g
发帖数: 5958
9
咱都是星宿派的,技术主张相似,你不是托也胜似托了。
我在这里谢过了。
咱还是别公然在这版上拉生意啦。
楼主这个事情对我说来也不是很好办。技术路线是比较清楚的。
1. API前面加proxy,负责异常检测以及记录日志。日志里记哪些项需要好好engineer
下。比如同一个客户端来的前后请求最好也能串起来。输入输出如果不大的话最好也记
下来。
2. 采集大量的日志数据做训练。
3. 正样本(异常)肯定会少。这时候可以发挥人脑的力量,编造一些正样本出来。
4. 机器学习/异常检测的paper太太太多了。随便搜几篇近几年的看看就行。
我随便想想,大致就是某种embedding算法。比如PCA。常规的点,去PCA里转一圈
再出来,loss应该不大。如果发现去PCA里转一圈出来完全不一样了,那就是
outlier了。PCA可以换成各种类似的更"先进"的方法。比如autoencoder。
(paper里应该比较常见的k-NN算法也可以作此理解.)
之所以说难办,是因为这一行水已经很深了。现成的solution已经不少了。
人家积累的也有年头了。好的模型必须经过实战沉淀的。
现在从头开始做讨不了好了。比如老邢这个BBS的前端(不知道现在还是不是)
cloudflare就是做这个的。

【在 g****t 的大作中提到】
: 既然是真是项目。正经项目。
: 既然素不相识,
: 我多句嘴。
: 你要故事。
: 可能最好的办法是看他的简历和公司介绍。
: 先给钱。
: 不然不合适。起码给个一小时若干刀的咨询费。几十刀也是个诚意。
: 交易关系要先有,不然后面的事容易没有逻辑。
: 另外我不认识wdong,所以不是托。
:

h**********c
发帖数: 4120
10
我也就多句嘴,
生产环境的异常,通常是一个二三百行的exception stack,最气人的是最下面一行,告
诉你,stack too long,改个什么参数to show 毛
相关主题
马工能转数据分析师吗?deep learning做embeded system,业界动态或者公司
不想和阿三合作 怎么办?这个IP在哪里
auto encoder 出来之后是不是没人再用PCA了二爷看过来。
进入Programming版参与讨论
w***g
发帖数: 5958
11
楼主那个是security,怕有人黑进来,或者crawl数据啥的,应该不是程序抛出的异常。
我见过一些生产环境,log都打印得老勤了。core dump啥的也都有。
不过分布式下都没啥用吧,主要还是靠老司机猜吧。

【在 h**********c 的大作中提到】
: 我也就多句嘴,
: 生产环境的异常,通常是一个二三百行的exception stack,最气人的是最下面一行,告
: 诉你,stack too long,改个什么参数to show 毛

h**********c
发帖数: 4120
12
太复杂,我老没有那么高function,测几个半自动的小八哥,然后给个爬丝,
混口饭吃,明年希望还有。

常。

【在 w***g 的大作中提到】
: 楼主那个是security,怕有人黑进来,或者crawl数据啥的,应该不是程序抛出的异常。
: 我见过一些生产环境,log都打印得老勤了。core dump啥的也都有。
: 不过分布式下都没啥用吧,主要还是靠老司机猜吧。

c********1
发帖数: 5269
13
有个认识的
在credit union, 做这个的 --防[有人黑进来]
domain knowledge 是关键

常。

【在 w***g 的大作中提到】
: 楼主那个是security,怕有人黑进来,或者crawl数据啥的,应该不是程序抛出的异常。
: 我见过一些生产环境,log都打印得老勤了。core dump啥的也都有。
: 不过分布式下都没啥用吧,主要还是靠老司机猜吧。

h**********c
发帖数: 4120
14
说白了就是需求很明确,business model清晰
反面就是一些破把把公司,还要搞NSA level 的code review

【在 c********1 的大作中提到】
: 有个认识的
: 在credit union, 做这个的 --防[有人黑进来]
: domain knowledge 是关键
:
: 常。

y******2
发帖数: 326
15
anomaly detection是正路。用autoencoder. stacked autoencoder 需要进一步调试。
美国homeland security就是用这个做的。按说这个也得是专业人能调好,你是啥预算
啊?

为0)
apply

【在 l***p 的大作中提到】
: 最近要立一个关于安全方面的项目,想靠人工智能(本人机器学习这方面的知识基本为0)
: 用例:当检测并发现某个应用服务被异常访问时,提示安全隐患,建议或者自主apply
: appropriate security policy
: 各位大神给个建议,有什么框架,近似的解决思路?

l***p
发帖数: 358
16
第4点很给力,虽然不是很懂,先学习消化一下

engineer

【在 w***g 的大作中提到】
: 咱都是星宿派的,技术主张相似,你不是托也胜似托了。
: 我在这里谢过了。
: 咱还是别公然在这版上拉生意啦。
: 楼主这个事情对我说来也不是很好办。技术路线是比较清楚的。
: 1. API前面加proxy,负责异常检测以及记录日志。日志里记哪些项需要好好engineer
: 下。比如同一个客户端来的前后请求最好也能串起来。输入输出如果不大的话最好也记
: 下来。
: 2. 采集大量的日志数据做训练。
: 3. 正样本(异常)肯定会少。这时候可以发挥人脑的力量,编造一些正样本出来。
: 4. 机器学习/异常检测的paper太太太多了。随便搜几篇近几年的看看就行。

1 (共1页)
进入Programming版参与讨论
相关主题
感觉Scala要火[bssd]wdong,lightroom....来猜个东西
作为一个合格的后端码农,是不是的会三种语言马工能转数据分析师吗?
代码开源了不想和阿三合作 怎么办?
技术揭秘12306改造:尖峰日PV值297亿下可每秒出票1032张auto encoder 出来之后是不是没人再用PCA了
学习DEEP LEARNINGdeep learning做embeded system,业界动态或者公司
ML 需不需要搞懂那些数学这个IP在哪里
wdong的网站在我公司的黑名单上,LoL二爷看过来。
Pytorch靠谱吗?oracle coherence
相关话题的讨论汇总
话题: 异常话题: pca话题: ml话题: security