当前位置:首页|资讯

GBD数据库分析高分技巧——分层聚类

作者:郑老师讲统计发布时间:2024-09-15


详情请点击右方:新数据,好发文!9.21-22,最新一期GBD数据库挖掘培训课来了!

GBD数据库本身就是一个可用于研究全球疾病负担的数据库,数据全面、分析简单,无论是统计小白还是科研医生都能用这个数据库进行探索。但要想在众多文章中脱颖而出,不妨添加一些“套路”。

今天就用一篇一区top文章为大家讲清楚,如何用层次聚类对GBD数据库进行聚类分析。

简单来说,聚类分析就像是把一堆不同的水果(如苹果、香蕉、橙子)根据它们的特征(如颜色、大小、形状)分成几类。

聚类分析的本质,就是对变量进行分类,研究者依据自身对变量和理论的了解,将具有相同性质的变量分为一类。如果你也想在挖掘GBD数据库时尝试这个分析套路,欢迎联系郑老师的统计团队!专业的统计师指导,不管是聚类分析还是预测模型,都可以带你尝试!如果你对GBD数据库挖掘感兴趣,扫描下方二维码来聊聊吧!

接下来我们将以一篇GBD聚类文章为例,为大家解读如何用聚类分析对不同地区的数据进行分类。

2024年3月12日,英国伦敦国王学院的作者在《Science of The Total Environment》(医学一区top,IF=8.2)中发表的题为:“Effect of ambient ozone pollution on disease burden globally: A systematic analysis for the global burden of disease study 2019”的研究论文,旨在探究GBD环境臭氧污染对于全球疾病负担的影响。

如果需要本文的PDF,仅需关注“医学论文与统计分析”公众号回复原文,即可自动获取。

本文有两大亮点:第一点为在数据分析时使用了分层聚类分析的方法;第二点为文章方向为臭氧对所有疾病的疾病负担。

接下来本文将从这两点进行简单介绍。

当我们在网上搜“聚类分析”时,跳出来的第一句话就是“聚类分析是一种无监督学习的方法,旨在将数据集中的样本划分为具有相似特征的不同组”。

问题来了,什么是无监督式学习?和监督式学习有什么区别?

简单来讲,有监督学习就像老师教孩子识别苹果和香蕉,给出明确的“这是苹果”、“那是香蕉”的指示,孩子学会了根据这些标签来分类。

而无监督学习则是一群孩子在沙滩上玩耍,没有大人告诉他们怎么玩,他们自己分群、堆沙堡或挖沙子,形成了自然的群体和活动模式。

如果公式的角度,我们可以从最简单的线性回归来理解:Y=aX+b

公式中的Y为响应变量向量,X为自变量向量,a为系数,b为截距。将所有数据都告知,得出最后的Y,这就是一个简单的有监督式学习的公式。

而无监督式学习呢,就是没有Y这个响应变量,只有自变量X。而是通过自变量X之间的一些数据特性进行聚类,降维,关联规则学习。

我们今天要说的层次聚类(Hierarchical Clustering)就是聚类分析中的一种。层次聚类目的是把每个数据点作为一个独立的簇开始,然后逐步合并最相似的簇,直到所有的数据点被合并到一个簇中或达到了预定的簇。

举个例子,在200个水果中有苹果,葡萄,龙眼,橙子,西瓜找出类似的。那聚类会更具形状,大小,颜色来把这些水果分组。如果目标是分成3组,那可能开始时200个水果会按各自的大小,颜色聚集到同一个簇中,最终可能以葡萄和龙眼组,苹果和橙子组,西瓜组分成3个大组。

接下来将对文章内容进行简单介绍。

暴露于环境臭氧污染会造成健康损失甚至死亡,两者都是世界范围内疾病负担的主要危险因素。因此本文的研究团队基于GBD 2019的数据,综合综合评价臭氧污染相关疾病负担。

初步分析表明,2019年,臭氧污染导致全球365,222人死亡,6,210,145人死亡,占全球死亡人数的0.65%,占全球DALYs的0.24%。

研究团队发现,疾病负担随着年龄的增长而持续增加,其中男性为高危人群,中低社会人口指数(SDI)区域为高危区。

由于臭氧污染的疾病负担在GBD区域和各国之间差别很大,因此研究团队使用聚类分析评价全球疾病负担研究(GBD)地区相关疾病负担的变化规律。

结果发现,2019年,与1990年相比,死亡人数和残疾病例数分别增长了76.11%和56.37%。

最后,使用率年龄-时期-队列(APC)模型和贝叶斯年龄-时期-队列(BAPC)模型预测未来25年的疾病负担。结果显示,从2020年到2044年,男女死亡病例数和残疾调整生命年病例数仍将增加。

综上所述,如今环境臭氧污染已经威胁到全球公众的健康。应考虑全球具体情况,制定更积极有效的战略措施。

总之,将分层聚类方法应用于GBD数据库的分析中,不仅可以细化数据的分层结构,丰富研究成果的多样性,增强数据可视化的效果,从而使研究报告更加具有创新性和说服力。

详情请点击右方:欢迎报名,GBD公共数据库挖掘1对1指导高级班,快速发表SCI论文!



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1