数据分析中最好用的估算法 费米估算法的原理是什么( 二 )


在拆解问题时 , 需要注意两个问题 。
1)避免将未知分解成新的未知 , 但使分解后的元素可解
比如在“估计杭州一家奶茶店一天卖多少杯奶茶?”从需求端 , 我们先估算杭州常住人口1000万 , 再估算 , 
每天喝奶茶的人=常住人口*普及率
假设渗透率为1% , 估计每天喝奶茶的人数为10万人 , 每人每天喝一杯 。然后估计杭州有1000家奶茶店 , 最后得出每个奶茶店一天卖100杯奶茶的结论 。
问题来了 。我们刚刚拆了杭州奶茶店的元素 。我们估计有1000个 , 这其实是一个特别关键的值 。这个数值直接影响每个奶茶店平均卖多少杯奶茶 。但杭州到底有多少奶茶店有这个数值 , 其实不得而知(靠常识或数据无法得知 , 不要告诉我去百度) 。继续从一个未知数推导出一系列未知数 , 这样
所以 , 被拆解的元素不可能是未知的;如果它们是未知的 , 就需要不断地分解 , 这样就可以求解出分解后的元素 。
2)当给拆卸的零件赋值时 , 避免改变值的真实范围
不改变数值的真实范围 , 是指当计算公式中的每个元素被赋予实际意义时 , 不扩大或缩小范围 , 根据数据或经验给出更准确的范围 。
如前所述 , 举个例子 , 费米正在估算芝加哥每个家庭有4个人 。如果要估算的话 , 我们不能通过拍脑袋直接估算出芝加哥每个家庭有10个人 。我们的估计应该有实际数据或生活经验支持 。
当你在面试中遇到这种估算问题的时候 , 不要直接说可以通过百度搜索等待这种答案 , 或者转到死胡同去敲打某个数据的准确性 。
面试官通过这类问题考察的 , 其实是面试官的分析方法和逻辑 。对于问题拆解的边界考虑 , 答案可能没那么重要 , 这个思考过程才是面试官想要的 。
四、案例分析 1. 估算杭州每年奶茶店的规模大小? 4.1.1澄清问题
问:我每年都问杭州的奶茶店有多大 。尺寸具体是什么意思?
答:规模是指奶茶店的销售额 。
问:奶茶店的销售额是指只卖奶茶的收入 , 还是包括奶茶店的其他饮料、面包等食品?
答:奶茶店的销售额是指所有饮料(不包括面包等食品) 。
4.1.2分析需求方问题还是供给方问题 , 或者两个角度都不分析
这个问题是关于杭州每年的奶茶店规模 , 也就是一个地区的市场规模 。这种问题一般可以从需求方(消费者)切入 , 因为杭州的常住人口是一个可知的数字 。初步判断可以从需求端入手 。
4.1.3问题分解 , 公式
杭州每年奶茶店的规模=杭州常住人口*渗透率*50*饮品单价*每人每周购买的杯数
将未知问题从需求方分解成元素后 , 我们发现:
杭州常住人口:杭州常住人口是知道的 , 这是常识 , 目前大概1000万左右 。
渗透率:渗透率是指会选择喝奶茶的人群比例 , 这个需要我们来估算 。估算时 , 避免改变数值的真实范围 , 也不要估算太远 。
这主要是考察边界问题 。我们回答的时候可以说是用样本估计的 。比如我随机抽取100个好友 , 看看有多少是合格的 , 以此来估算渗透率 。
这是另一个关键问题 。不同年龄段的人喝奶茶的频率不同 。根据生活经验 , 年轻人喝奶茶的次数比中年人喝老年人多 , 所以我们可以用MECE法则将杭城常住人口分为儿童、年轻人、中年人和老年人 , 计算公式不变 。最后可以把各种类型的尺寸加起来 。
每人每周续购杯数:解决办法同上 。52:指的是一年约有52周 , 是已知数 。饮品单价:根据我们的生活常识 , 蜜雪冰城的奶茶均价8元 , 喜茶的奶茶均价在30元一杯 。所以饮品单价我们可取15元一杯 。4.1.4计算
杭州奶茶店每年的规模=(150 * 0.1 * 15 * 1 * 52)+(300 * 0.4 * 15 * 1.5 * 52)+(400 * 0.1 * 15 * 0.5 * 52)+(150 * 0.05 * 15 * 0.5) 。
预计杭州每年奶茶店规模在17亿左右 。
2. 估算杭州一家奶茶店一天卖多少杯奶茶 4.2.1澄清问题
问:奶茶是指店里所有的饮料?
答:是的 。
4.2.2分析是需求方的问题还是供给方的问题 , 或者都不是角度
如果从需求端出发 , 我们会发现很难拆解出有意义的元素 , 因为店内的客流是不确定的 。所以一般要从供给端入手 , 看奶茶店能提供多少杯奶茶 。因为总的来说 , 供需是平衡的 。


推荐阅读