不平衡数据机器学习的四种处理策略---采用R语言实现

2016-09-04 数控小V 数控小V

在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。实际上,经典的统计学建模(如回归),同样也是不稳定的。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现? 在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据

在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。实际上,经典的统计学建模(如回归),同样也是不稳定的。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现? 在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强。 本文会介绍处理非平衡分类数据集的一些要点,并主要集中于非平衡二分类问题的处理。一如既往,我会尽量精简地叙述,在文末我会演示如何用R中的ROSE包来解决实际问题。 什么是不平衡分类 不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问题在二分类中更为常见。(注:下文中占比较大的类称为大类,占比较小的类称为小类) 不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们就认为它不平衡。 举个例子,假设我们有一个观测数为100000的数据集,它包含了哈

作者:数控小V



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言

相关资讯

CFDA正式印发药物临床试验数据核查工作程序(暂行)的通知

3月29日,CFDA正式印发了《国家食品药品监督管理总局药物临床试验数据核查工作程序(暂行)》,此前2月24日,CFDA曾发布《关于征求药物临床试验数据核查工作程序意见的通知》征求意见,相比较于意见稿,此次发布的《工作程序(暂行)》,出现了两点变化:第四点中“注册申请人在10日内没有提出撤回申请的视为接受现场核查,此后不再接受药品注册申请人的撤回申请,核查中心将派出检查组现场核查”改为了“药品注册

Nature:发现大脑容错机制

在一项新的研究中,来自美国霍华德-休斯医学研究所的研究人员在小鼠大脑中发现一种容错机制。在针对小鼠的实验中,他们的发现及其影响有助于进一步理解大脑是如何工作的。相关研究结果于2016年4月14日在线发表在Nature期刊上,论文标题为“Robust neuronal dynamics in premotor cortex during motor planning”。   针对这

收藏:数据可视化工具大全

所谓数据可视化是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像, 同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。为了让开

如何采用医疗数据洞察和预测医疗成本

Intetix Foundation由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。原作者:Dimitris Bertsimas;Michael A. Kane;J. Christian Kryder;Ru

2016 数据科学:健康大数据产业论坛

2016 数据科学:健康大数据产业论坛 将于9月22日~23日在上海召开。 一百多年来,现代医学经历了飞速的发展,医疗实施过程、药物研发及评价、药品疗效信息、基因信息、生物标志物、临床试验等积累了大量数据。在数据驱动的医学时代,如何从海量医学数据中找出数据的价值所在,解决大规模数据引发的问题、利用好数据挖掘所带来的竞争力,需要多学科的协同和创新。当前,适应于生物医学大数据的软硬件平台、大

为什么降低“药占比”这么重要?看完这组数据秒懂了!

近年来,我国看病住院费用不断上涨,从2010年的6193.9元增长到2014年的7832.3元。而费用中,门诊及住院病人的药费则占据了一半,可见降低药占比政策的重要性。并且,在不同级别的医院,看病花费也有一定的差距,越是高等级的医院,看病费用越贵。究竟详情如何呢?本文用数据一一呈现。  近年来看病住院花费逐年上升 近年来看病是越来越贵,要是只是头疼脑热的小病,看个门诊也就