当前位置:首页|资讯

小白入门数据分析

作者:人人都是产品经理发布时间:2024-09-09

本文旨在通过一个实际案例,引导读者用最朴素的方式解锁数据分析的大门,打破对数据的迷信,将焦点回归到解决问题上来。通过易于理解的语言和实操指南,即便是数据分析新手也能够快速入门,提升工作效率,发现数据背后的商业洞见。

来到传统私企后,发现很多人还停留在明细数据的阶段。相对好一些的,却是被毒害的青年,开局RFM、帕累托,然后解密宇宙。

提起数据分析,很多人容易陷入过于复杂的模型和工具中,为了“打破迷信”也为了有一份相对能看的数据,决定写一篇易于理解的保姆级实践指南。

01 数据科学,不是量子力学

无论多么高大上的语言或工具,数据分析绕不过这3点:获取数据、清洗数据、理解数据。

它的难,难在热搜里充斥着不实用和听不懂。

接下来用一个案例来正式开启这篇文章:

案例背景:你需要为景区设计文创产品,但不清楚哪类文创产品受欢迎。你想通过分析文创产品的类型、价格和销量等数据来获取灵感。比如,哪些类型的文创产品卖得最好?价格与销量之间是否存在相关性?

数据需求:销量排名前100个商品数据,包含名称、分类、价格、销量、用途、人群、材质、风格。

02 获取原始数据,减少无效需求。

我们总觉得平台取数速度太慢,或者研发诸多刁难,其实是要了太多没用的数据。

在提需求时,要再三问自己:是否有必要、是否有替代方法。

其次请要原始数据,要更少的原始数据。

通过控制数据提取的范围,减少处理冗余信息的计算和人工负担。而原始数据便于组合,但结果数据不仅提取复杂,也很难二次加工。

在获取了数据后,先不要着急进行数据分析,因为原始数据往往是杂乱的。

如果不清洗数据,后续的分析结果很可能会失真或者错误。只有数据“干净”了,分析工具和模型才能发挥作用。

接下来,让我们看看如何进行数据清洗,让它变得“可读”和“可用”。

03 清洗到你看得懂,机器才看得懂

工具层面,我建议使用飞书多维表格,后续的图形化也更加方便。

1、数据清洗

首先清理无用的关键词,例如:“故宫”、“文创”、“官方旗舰店”等。

清洗过后,不仅提高了阅读体验,也降低了机器处理数据的算力需求。

必要时,可以增加其他的清理手段,例如:补全空值或统一标签格式,确保数据清晰规范。

2、数据分类

2-1、特征提取

第二步,我们要提取有价值的特征。例如商品标题中的节日、用途、人群。

最简单的方式是使用飞书的字段捷径进行智能标签,但对于这类容易标准化的数据,更好的方法是函数提取。

例如REGEXEXTRACTALL函数:

REGEXEXTRACTALL([商品标题], “教师节礼物|生日礼物|乔迁礼物|儿童节礼物|结婚礼物|创意礼物|伴手礼”)

这个函数从商品标题中提取匹配的礼物类型,将其转换为“用途标签”。

提取标签后要注意再次清除相关关键词。

2-2、数值分类

在分析品类价格分布时,稀疏的价格数据无法帮助我们有效识别问题。

但如果我们将价格收窄为区间,数据就会变得集中,便于我们的分析。

IFS( [商品价格] <= 50,”50以下”,[商品价格]<=100,”100以下”,[商品价格]<=200,”200以下”,[商品价格]<=500,”500以下”,[商品价格]<=10000,”500以上”)

除了AI,更方便的方法是使用IFS函数。它会把价格匹配范围内的数值,归类到对应的区间。

通过清洗和分类,我们和机器都看得懂了,那就能进行下一步分析了。

04 分析好好拧螺丝,不要造火箭

分析常用的图表是:趋势图、饼图、柱状图、条形图还有词云,它们能应对80%的问题,就别再波特五力我了…..

趋势的波动让我们更快发现问题,而占比及变化帮助我们聚焦重要的问题。组合图的交叉、下钻分析则是进一步识别问题了。

回到我们的分析问题上。

1、文创的类型、销量、价格

通过分析饼图可以发现:销量占比与分类占比大致匹配。

但在“其他”分类中,纸袋的销量有2万个,导致数据失真。

因此我剔除了纸袋类商品,重新分析装饰、文具、器皿等主要品类的销售情况。

品类主要集中在装饰(29.4%),文具(22.6%),器皿(20.17%),品类多的也是卖得好的。其中,平均价格最高的是器皿(210元),最低的是文具(76元)。

2、销量与和价格的关系

将商品收窄至分类进行后续分析,注意到右上角的按钮了吗?飞书文档生成的图表能够进行智能分析,帮助我们进一步提效。

洞察:

不同分类商品中,器皿的商品价格最高(210),但销量并非最高(877)。

首饰的商品价格(154)处于中等水平,销量(506)相对较低。

分析:

价格和销量的相关性较弱。以器皿为例,虽价格较高,但销量可观;首饰价格中等,销量却较低。这表明价格并非决定销量的唯一因素,可能受产品特点、市场定位等影响

飞书多维文档

3、用途、人群、材质对价格和销量的影响

洞察:教师节礼物的销量达到 1012,为所有用途中最高。

儿童节礼物的商品价格仅为 35,相对较低。

分析:

用途、价格和销量存在一定相关性。例如,价格较高的中秋礼物销量为 700,而价格较低的儿童节礼物销量为 400。教师节礼物价格并非最高但销量突出,可能因其更符合市场需求或推广更有效。

整体上,价格与销量呈正相关,较高价格商品往往有相对较高的销量。

细分用途后,价格和销量相关性结论不一样了,我们可以用相同的办法去验证人群、材质、创意的影响。

基于标签生成的词云,创意部分非常奇怪,这也说明了非标的数据不适合直接提取。

最后就是输出建议了,分析必须要有观点和建议。

观点:

1)装饰、文具、器皿品类表现优异:生产得多也卖得好,装饰品类销量占比最高,达到29.4%;

2)销量和价格关系较复杂:整体上非强相关,部分高价值的商品如器皿销量可观,但其他类别没有呈现相关的特点;

3)节日影响显著:教师节销量(1012件)明显领先,价格较高的中秋礼物也表现不俗(700件),特定节日对销量有较大推动作用;

4)人群、创意数据参考意义不大:标题由于SEO仅部分有明确目标人群,创意词云较为混乱,建议选择品类Top5销量的产品定向查询。

建议:

1)考虑到定制化成本,建议在装饰、文具品类发力;

2)结合词频,前期建议优先设计泛人群的日常产品,如出行使用的包袋、家居摆放的装饰等,减少季节性和节日波动对销量的影响;

3)此外,可以基于节日主题开发成本低、生产快的产品,如圣诞节冰箱贴。

05 最后

在业务量没有到达一定级别的时,别花太大的力气在高深的名词上,而且很可能名词都找错了,其次站得高不一定看得远。

当到了那个级别,我相信也会请专门的数据分析师来做这件事情,希望不同岗位的同学看了这篇文章后能够快速入门。

本文由 @Wise 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1