有没有人可以说说营销三大非经典算法算法中关于算法3的理解?

登录没有账号?
&登录超时,稍后再试
免注册 快速登录
揭秘互金“套路”:一家互金公司为什么有三套不良率算法
  日,情人节前一天,人人贷公布了自己2016年年报。去掉成交额、注册人数这些吓人的“大数”,大多数人更关注的可能是整个年报里最小的数字――逾期率。人人贷年报显示,截至2016年底,逾期率仅为0.26%
  除了人人贷,在春节前后,还有点融网、积木盒子等几家平台也陆续公布了自己的年报。我身边有个朋友说,收集各家年报的时候,最关注的都是逾期率和坏账率,可是最不相信的也是这个数字。
  每个行业都有一些“不能说的秘密”,作为一个透明度还不那么高的新兴领域,自然也有不少“死穴”。比如:“不良”数据、盈利情况、公司估值、员工数量等等,这都是各家公司讳莫如深的信息。
  今天先说说跟行业发展最息息相关的“不良”数据。
  由于目前互联网对于“不良”尚未形成统一的定义和统计标准,所以这个行业形成了一个奇怪的现象:一边,每个人都说行业的整体资产质量令人担忧,潜藏着巨大的风险;但另一边,每家机构披露的“不良”数据又始终在低位徘徊。
  仅从几家披露了“不良率”的公司来看,这风险甚至比银行都要控制的好。但是仔细想想,这些平台服务的用户大多是银行不愿意或者不能做的,坏账比银行还低确实让大人心里存疑。
  这一矛盾现实也折射出了互金行业“不良”尚未形成统一定义、统计标准,以及披露机制的硬伤。“不良率”本来是一个公司的经营状况问题,但是因为外部竞争和内部压力等种种原因,最后很容易就变成了一个会计问题。
  模糊的界定标准
  关于“不良”的界定,商业银行五级分类的标准最为明确和清晰。
  根据规定,目前银行里的贷款五级分类制是依据借款人的还款能力,即最终偿还贷款本金和利息的实际能力,确定贷款遭受损失的风险程度,将商业贷款划分为正常、关注、次级、可疑、损失五类。其中,后三类称为不良贷款。
  所以,如果仅以时间标准来看,逾期90天就调为不良。(次级的定义为:本金或利息逾期91天至180天的贷款或表外业务垫款31天至90天)。
  但在金融行业,这个定义就变得复杂了。从馨金融了解的情况来看,大部分互金公司对外披露关于“不良”的界定通常还是参考银行的标准,即逾期90天以上算作不良贷款。当然,也有比较严格的机构,逾期1天也算作“不良”。
  虽然对于“不良”的界定有所差异,但这不同公司“不良”数据悬殊巨大、行业数据真假参半的真正秘密还在统计方式上。
  简单来说,银行“不良率”的计算公式是这样的:不良贷款率=(次级类贷款+可疑类贷款+损失类贷款)/各项贷款×100%。但落在互金行业,即便采用类似的统计方式,但对上述公式中分子、分母的界定各不相同,操作空间也大了许多。
  “不良”统计的秘密
  1、统计标准各不同
  目前互金行业里常用的“不良”统计方式有三类:
  第一种是类似的余额“不良率”,即截至到某一时点的不良余额/贷款余额,但这个存量的日期有选择期初的也有选择当前的,30、60、90、180天都有。而为了便于对外说明,主流的做法是跟银行类似,逾期90天以上为“不良”。
  这一统计方式的好处是,可以通过短期内做大分母来稀释不良率。所以,虽然“不良率”同是以不良规模除以贷款余额,但追究到分子分母的来源和算法,至少有二三十中不同的定义方式,而每种方式都能得出不同的数字。
  比如:在分子上,究竟逾期几天算逾期?是否考虑代偿和核销的(其实代偿又分90天内追回和尚未追回)?在分母上是否用过去12个月平均在贷、三个月前的余额、还是过去12个月里平均撮合金额(这更符合P2P的中介性质),等等。
  第二种是当期资产“不良率”,即特定期限内发放贷款产生的不良余额/该期限内发放的贷款。优点是确定了某个时间段,反馈的信息比较准确,但缺点在于不能反映全貌,所以可以选择只披露表现较好时期的资产“不良率”以达到美化指标的目标。
  第三种是Vintage Analysis,即基于贷款发放月份的数据分析贷款各项指标的方法。看似跟第二种类似,但更像是它的“进阶版”,这广泛应用于产业,也是Lending
Club在内的一些P2P上市公司所选用的“不良”统计方式。
  “Vintage一词源自葡萄酒业,意思是葡萄酒酿造年份。因为每年的天气、温度、湿度、病虫害等情况不同,而这些因素都会对葡萄酒的品质产生很大的影响,所以人们对葡萄酒以葡萄当年的采摘年份进行标识来加以品质区分。
  已经上市的P2P平台宜人贷,根据其三季报公布的信息,它也开始采用了这种统计方式,即以固定时间段内促成的借款初始本金总额为分母,分子是同期借款本金总额中出现风险的金额,随着时间推移,全周期累计坏账率会自然升高。
  说白了,就是体现借款初始本金总额的分母锁定不变,不能掺水,重点看全周期结束后坏账损失的百分比。另外,通过比较不同时间段,比如不同季度的全周期累计坏账损失,可以清楚的衡量平台风控能力。
  2. 对内对外各不同
  “除了统计方式不同,因为‘不良’数据的用途不同,即便是同一家公司往往也有几套标准和几个不同结果。”一位从事不良资产处置的业内人士道出了这“不良”统计背后的第二个玄机。
  第一套标准是对外的,大家往往会选择最主流,最容易被理解的模式,即跟银行的“不良“统计标准和方式类似。第二套标准是对内的,因为要最贴近真实的情况便于风控管理和绩效考核。而第三套标准则是在处置和转让“不良”时用的。
  “对内对外的统计不同并不难理解,对内的统计可以视作是一种管理统计,是服务于KPI考核和公司近期的发展战略的。比如,如果公司更注重资产规模的发展,会倾向于考核余额不良率,鼓励大家通过做大分母来降低不良。”该人士表示。
  多家互金公司负责人业向馨金融表示,内部对于“不良”的统计确实更为严苛,也会采用上述Vintage的方式来分析资产质量的变化,因为这更便于找到风险点。但因为未上市企业没有强制的要求,所以对外不会披露那么细的指标。
  此外,由于不少互金机构会定期转让或委托外部机构来处置自己的不良资产,而每个资产包的定价很大程度上也取决于逾期时间的长短,所以对于“不良”的界定和标准又有不同。
  3. 不同阶段也不同
  除了前面两个主观的选择外,导致互金行业“不良”数据暧昧不明的重要原因也在于这个行业的快速变迁。
  虽然互联网金融行业发展的时间并不算长,但业务模式和产品形态却已纷繁复杂,仅以信贷业务来说就有抵押类和非抵押类,非抵押类里又有针对蓝领、白领,线上、线下等针对不同人群、不同金额、不同风控方式的产品。
  此外,据某P2P平台CEO介绍,早期国内的P2P平台都有担保公司的介入,或者自建了风险备付金,这些在不同程度上都影响了对于不良资产的处置,以及“不良率”的统计。
  具体来说,早期,如果借款企业没有还款,但担保公司代偿了,按照银行的标准则会把这一笔列为正常,但当时我们的操作是把它列为逾期/代偿,计入“不良”口径。
  “早期之所以这么做是因为当时平台只有介入担保的企业贷产品,而一旦出现逾期担保公司都当天代偿了。在这种情况下,如果代偿不计入不良的话,平台资产就是0逾期、0不良,大家反倒觉得不可信。”该CEO表示。
  但后期,据他介绍,随着公司产品线的增多,例如,上线了一些周转频率更快的贷款产品(1个月、3个月、6个月),也没有了担保公司承保,所以统计方式也做了调整。
  “大家都会选择更利于自己的统计口径。”不止一位业内人士道出了“不良”统计的核心原则。
  然而问题的核心在于,这是整个行业面临的风险。如果没有人能说清楚这个行业里到底有多少坏账,这些坏账到了哪里去、有多大的风险,风险什么时候会到来,那么这始终将是悬在整个行业头上的达摩克利斯之剑。
  (作者洪偌馨,《第一财经日报》资深记者、第一财经电视“互联网金融之夜”(特约)主持人,“馨金融”专栏作家)
(责任编辑:张倩 HF006)
和讯网今天刊登了《揭秘互金“套路”:一家互金公司为什么有三套不良率算法 》一文,关于此事的更多报道,请在和讯财经客户端上阅读。
提 交还可输入500字
你可能会喜欢
热门新闻排行榜
和讯热销金融证券产品
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
违法和不良信息举报电话:010- 传真:010- 邮箱:yhts@staff.hexun.com 本站郑重声明:和讯信息科技有限公司系政府批准的证券投资咨询机构[ZX0005]。所载文章、数据仅供参考,投资有风险,选择需谨慎。你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
最近在做svdd算法,训练一类分离器时,发现惩罚因子和核参数的选择难以找到一个优化目标?在TAX和DUIN文章中他们训练一类分类器时人工产生了异常样本,以错误率为优化目标,选择核参数。希望有做过该算法的高手予以指点?
啊,居然能看到SVDD这种比较小众的东西,我来说说我的看法。
“惩罚因子和核参数的选择难以找到一个优化目标”是没错的,由于只有一类样本,而优化目标却要求对正类和负类有区分能力,所以这个问题本身就是ill-posed的。换句话说,单类分类问题,必须加上某种假设才可以有解决方法。用SVDD来说,它优化的是特征空间的一个最小包含超球体,其实它的假设就是“负类样本在整个特征空间中均匀分布,所以正类描述体积越小,可能被错误包含的负类就越少”。
基于这个假设,我们就很容易理解,为什么可以用人工产生的异常样本来做参数选择。
回到实践之中,在我们确实无法得到任何负类样本的情况下,如果想训练一个单类分类器,可以考虑以下方法选择参数:
(1)产生人工负类用于评估。这里面需要注意两点:① 人工负类生成也有不止一种方法,均匀生成、高斯分布生成等等都是可选的;② 如果生成的人工负类样本数量,与正类样本数量差距较大,那么一定要注意在评估的时候考虑到这个不平衡的问题。实际上,尤其是在维度较高的时候,(大部分)人工负类样本生成方法生成的样本数量会非常多。
(2)固定单侧评估指标。有点像Newman-Person学习,举例来说,我“希望”对正类的准确率达到95%,那么在参数选择的时候就找到最接近95%,而且边界最松弛(紧致的模型更容易过拟合)的模型就好。这是单类分类的核心问题:我可以轻易使得正类样本的准确率达到100%(全部分为正类),但是这种模型是彻底过拟合的,因此一定程序降低对正类拟合精度的要求作为一种权衡。
当然,总而言之,单类分类的参数选择是一个难题,根本原因在于单类分类的评估是一个难题:根本没有负类样本,如何能理性评估?
┑( ̄Д  ̄)┍
所以都是要基于某种假设的,不用太在意。。。
P.S. 提问的时候如果用“请问SVDD如何进行参数调整”也许更合适
要回复问题请先或
浏览: 3181
关注: 3 人339被浏览22,065分享邀请回答15813 条评论分享收藏感谢收起566 条评论分享收藏感谢收起}

我要回帖

更多关于 三大排序算法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信