13.1 引言

大数据背景下,有关同一问题的数据来源多种多样,这就决定了子样本之间存在异质性同质性(矛盾的“对立统一”)。由于都是对同一问题的描述,因此子样本之间必然存在同质性(矛盾的“普遍性”)。又由于数据来源各不相同,在数据采集的过程中必然受到时间、地点、调查方式等诸多因素的影响,从而使得子样本具有独特的数据特征,即异质性(矛盾的“特殊性”)。对此,既不能将所有子样本合并为一个数据集来统一建模而无视差异,也不能对各个子样本各自建模而忽略相关性,整合分析应运而生。

同样,整合分析也是解决“大p小n”问题的有效方式。“大p小n”问题表现为大数据的来源差异性、高维性和稀疏性等特点。数据采集能力的提升拓宽了数据的来源渠道,即来源差异性;在这个过程中,数据维度也在不断增加,不可避免地会纳入与研究目的无关的变量,即高维性特征;信息的边际价值并未随数据量的增加而增加,即稀疏性

鉴于此,本篇文章采用基于惩罚方法的整合分析对多个数据集进行分析。根据前一章的内容,我们已经了解到惩罚函数在单个数据集上具有单个变量或群组变量筛选的功能,将其思想推广至整合分析领域,便是本篇文章的主要内容。