编辑: 人间点评 2019-04-24
1.

a. b. c. 2. a. b. c. 3. a. b. c. 4. 反作弊介绍 基本概念: 在介绍这个之前首先要介绍一下,什么叫作弊? 指用欺骗的手法去做违背制度或规定的事情. 那么反作弊是什么呢? 就是通过使用某些规则,从而发现并惩罚这种欺骗行为,从而维护环境的公平性. 目录结构 基本概念: 广告作弊: 分析方案(异 常检测): 离群 点检 测类 型 全局离群点 情境离群点 集体离群点 离群 点检 测面 临的 挑战 离群 点检 测方 法 参考链接: 广告作弊: 流量劫持 DNS劫持 又称 域名劫持;

例如:你无法访问Google, (客户端请求后,返回服务器前) 它对你的请求进行拦截,让其请求失去响应 或者 返回一个假的IP地址;

导致无法请求google服务器. HTTP劫持 :是指解析URL错误,而引发的重定向行为;

例如:一打开浏览器的时候,会 (到服务器后,返回客户端前) 对你的页面进行修改,解析错误,然后重定向到其他的页面. Cookie Stuffing 技术: 就是在某些页面下面,嵌套小的页面窗口,肉眼无法看到.这个解决方案有很多. 刷单 ( ) 机器行为/人工行为 刷销量 刷评价 刷排名 作弊工具 挂站软件: 使用浏览器内核,全国多人安装互刷每天每个人制造上千次虚假PV,可以伪造大流量. 例如流量宝、流量精灵、e流量、流量通、天和流量等等. 恶意插件:安装在浏览器中,在用户浏览网页时,暗弹广告(用户看到不,但被访问网址记录一次访问) 人工干预:通过人工手段对广告反复点击、app激活、安装等操作行为. 结语:其实无论什么形式的作弊,最后损失最大的永远都是为流量买单的"广告主". 从上图可以看出,流量多的二跳率却很低;

用户数接近流量的一半二跳却为0,看数据就知道这绝对有问题,所以这时候就需要考虑是不是 有作弊行为、刷量了. 当然除了二跳率这些指标外,异常表现还包括广告来源异常;

曝光、点击频次异常;

曝光、点击IP/地域集中;

用户平均曝光量、点击量过大;

曝光、点击的UA分布异常;

数据时段分布异常;

到达率、转化率异常等等. 分析方案(异常检测): 离群点检测类型 全局离群点 对于整理的流量渠道而言,有作弊比例为:0%/100%的渠道,区分度很高,有必要拿出来观察分析一下. 情境离群点 对于双11或者618,数据波动也许会比较异常,所以对于这种情况下的异常检测,我们的区分:购物时间和购物商城 集体离群点 对于所有流量渠道而言,例如:少部分的流量渠道作弊比例,假设集中在30%,突然今天有局部的流量渠道增长到60%、而大数据都30% 左右波动;

这少部分的流量渠道之间,看上去是正常的,但对于整体的变化趋势而言,他们是明显有问题的. 离群点检测面临的挑战 1.正常对象和离群点的有效建模 2.针对应用的离群点检测 3.在离群点检测中处理噪音 4.可理解性 离群点检测方法 1.监督/半监督/无监督方法 2.统计方法、基于紧邻性的方法 和 基于聚类的方法 具体如下: 1.统计: 正太/箱线图 2.近邻: 基于 距离、网格、密度 3.聚类: 聚类法 4.分类: 半监督的分类器(SVM) 参考链接: 1. https://www.zhihu.com/question/32108332/answer/125670881 2. https://my.oschina.net/repine/blog/521616 3. https://my.oschina.net/repine/blog/520151

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题