数字引领时代  智能开创未来

学术前沿 | 我院林红梅副教授和张日权教授合作在重要期刊发表论文

成果简介

 近日,我校统计与数据科学学院副教授林红梅、张日权教授与香港浸会大学的童铁军教授在国际知名统计学期刊《Journal of Computational and Graphical Statistics》上联合发表一篇题为《When Tukey meets Chauvenet: a new boxplot criterion for outlier detection》的学术论文。

 《Journal of Computational and Graphical Statistics》是由美国统计协会(ASA)和计算机协会(ACM)联合主办的图形统计领域的顶级学术期刊,聚焦统计计算与图形方法领域,涵盖数据分析,数字图形显示等技术研究,被我校列为国际二类I期刊。

图片

内容摘要

 箱线图(boxplot)——半个世纪以来一直是数据可视化最常用的工具之一。在经典的箱线图中,线条(whiskers)的长度被定义为箱子(box)长度的1.5倍,然后线条范围之外的观测值就被标识为异常值。箱线图最大的诟病是one-size-fits-all,也就是1.5倍的系数固化,容易对样本量大的数据标识太多的异常值。

图片图片

 这项新研究(Lin et al., 2025)的最大创新在于“他山之石,可以攻玉”——通过跨时空融合两位大师的思想,巧妙地将肖维勒准则引入箱线图,动态确定箱线图中的围栏系数,进而提出了一种全新的箱线图方法——肖维勒型箱线图(Chauvenet-type Boxplot)。该方法不仅继承了传统箱线图的直观性,还充分考虑了样本量的影响,既能控制随着样本量增大错误地大量识别异常值的问题,又能稳健识别出真正的异常值,从而提升了异常值识别的合理性和方法的稳健性。

 同时,文章中推出了一款命名为“肖箱图”(ChauBoxplot)的R包,全称是“肖维勒准则指导下的箱线图”,目前已正式发布在CRAN上。为方便用户在不同的可视化场景下绘制“肖箱图”,该R包也提供了两个主要函数:chau_boxplot()和geom_chau_boxplot()。 其中,chau_boxplot()的用法与基础R中的boxplot()类似,而geom_chau_boxplot()则可以像`ggplot2'包中的geom_boxplot()一样进行调用。欢迎大家下载使用,并批评指正。

此文已经获得了期刊的Open access,可以免费无限制地在线访问和使用研究论文。

作者介绍

林红梅,上海对外经贸大学统计与数据科学学院副教授,博士研究生导师。博士毕业于华东师范大学统计学专业。并曾作为联合培养博士赴美国加州大学圣巴巴拉分校深造,作为高级研究学者赴美国加州大学河滨分校访问交流,多次赴香港浸会大学、香港中文大学进行学术交流与访问。主要研究方向包括非参半参数回归分析、函数型数据分析、分布式统计方法等领域。在国内外统计学一流杂志 《Journal of the American Statistical Association》、《Statistica Sinica》等期刊发表论文30余篇,主持国家自然科学基金青年基金项目、面上项目各1项,主持上海市自然科学基金项目面上项目1项,主持教育部重点实验室开放课题项目1项,主持上海市重点课程项目。2019年获上海对外经贸大学科研标兵称号,2022年入选上海市“曙光计划”项目, 2023年入选上海市“东方英才”青年人才项目。 现担任中国现场统计研究会理事、中国现场统计研究会教育统计与管理分会副理事长。

图片

张日权,上海对外经贸大学统计与数据科学学院院长,教授,博士生导师。主持了多项国家自然科学基金、上海市科委重点项目、教育部博士点基金、国家统计局重点项目等20多项。在国内外权威期刊发表学术论文230余篇,SSCI\SCI收录论文160余篇,出版专著4部,教材3本,获得授权发明专利7项。获得上海市育才奖、上海市自然科学奖、上海市教学成果奖等奖励或荣誉称号20多项。

图片