网站离线数据安全分析漫谈 吴翰清 2012-07
Who am I? Alibaba security (7 years) 《白帽子讲web安全》
https://www.zdnet.com/blog/btl/646-million-linkedin-passwords-leaked-online/79290
http://www.zdnet.com/blog/security/63-of-website-owners-dont-know-how-they-were-hacked/10986
数据,安全分析 Data Analysis
一些开源项目 Apache-scalp grep 规则集: Php-ids Mod-security fuzzdb
有扫描了, 还需要分析日志吗?
漏洞 != 攻击 扫描能发现漏洞 (vulnerability) 分析日志能发现攻击 (Attack) 时间(time)、地点(apps)、起因(vulns) 分析日志能发现攻击 (Attack) 时间(time)、地点(apps)、人物(source ip) 起因(vulns)、经过(intrude path)、结果(lost)
Why not IPS/WAF? 在线数据分析:IPS/IDS/WAF 离线数据分析 计算更复杂 数据量更大 并联、异步 时效性不高 尤其适用多条请求之间有相关性的计算,比如频率统计,POST的referer,多数请求共同特征之外的少数请求特征; 可以满足灵活需求,比如统计损失; 阿里在使用类似的方法对网站所有url进行去重,然后给扫描器发起扫描,这样可以节省爬虫的流量与压力
满足更复杂的需求 场景1: 场景2: 统计某XSS蠕虫感染的用户数 把网站的所有请求根据URL去重,提供给扫描器进行扫描 尤其适用多条请求之间有相关性的计算,比如频率统计,POST的referer,多数请求共同特征之外的少数请求特征; 可以满足灵活需求,比如统计损失; 阿里在使用类似的方法对网站所有url进行去重,然后给扫描器发起扫描,这样可以节省爬虫的流量与压力
挑战与对策 大数据的传输 syslog-ng, ? 大数据的存储 hdfs 大数据的计算 map-reduce 实时性的提高 hbase?
现有流程 日志收集 ETL 规则分析 结果输出
数据仓库?
处理能力 10亿+请求 半小时左右分析完,仍有提高空间
分析什么? 白名单的思想 Referer url 字符集 产生过多噪音 降噪
检测XSS? 检测通用类型的攻击吗? Alibaba的需求 vs 中小网站的需求 XSS SQL INJECTION FILE INCLUSION CODE INJECTION COMMAND EXECUTE …… Alibaba的需求 vs 中小网站的需求
检测具体的exploits 漏洞库
漏洞 != 攻击 != 攻击成功 误报 404/403/500/503/301/302/… 有用吗?没用吗?有用吗?没用吗?
攻击验证 日志收集 ETL 规则分析 攻击验证 结果输出
Webshell检测
Webshell分布 90%以上webshell为ddos 多数webshell是ddos、挂暗链、挂马
0.0026%为webshell请求
攻击检测
每当新漏洞公布时 DEDE CMS 5.7 SQLi (ssvid-60089) Shopex4.8.5 SQLi (wooyun-2012-08597)
当然也能统计
展望未来 为中小网站提供数据安全分析服务 互联网安全的风向标