贫血的症状

首页 » 常识 » 问答 » 数字化认知定位偏差认知悖论与数据假象
TUhjnbcbe - 2023/10/30 17:26:00

“故知蠢蠢凡愚,区区庸鄙,投其旨趣,能无疑惑者哉”

--《大唐圣教序》

《大唐圣教序》贵为每个书法爱好者必学之经典,文章内容里朦朦胧胧的中国古代哲学观也挺有意思。

佛法显像,肉眼凡胎“皆识其端”;佛法幽寂,圣贤哲人“莫测其源”。

智者,犹为万物所迷。

看下图,哪张桌子更适合打麻将?

看上去肯定是右边这张桌子显得更像正方形。

事实上两张桌面的形状是一样的,因为右边这个是我在ppt里面将左边的四边形旋转了一下,不信可以比划一下或者量一下。

数字困境

我们的生活里充满了数据,对数字的渴望在金钱上体现得淋漓尽致:我们期望银行卡里的存款都是正增长;期望工资每年都可以加个10%,30%,50%;期望买彩票可以中大奖;期望每次买股票都可以涨停。

在计算自己的金钱上,每个人突然变成速算高手、概率学、统计学专家了。

数字已经不仅仅是客观存在的一个抽象符号了,可以代表任何东西。

天才的莱布尼茨早早就发现了“二进制”,当时他可能只当成个数学游戏,直到布尔使用二进制做逻辑计算,香农将其应用在逻辑电路里面表示“通”和“断”,二进制才成了计算机的基础。

我们所用的所有计算机软硬件、操作系统和应用程序如windows、qq等在计算机看来都是二进制数字。

与计算机这种冰冷的数字抽象不同,1%对每个人的意义是不一样的,比如马云的1%的财产和我的1%的财产。

做数据分析工作的人每天要面对各种正数、负数、百分数、平均数、方差,统计成各种柱状图、折线图、曲线图、饼状图等等,不需要去质疑这些数字、图表的真实性,但它们反映的是真实情况吗?

单纯的数据只是个二进制数字,脱离场景、对象、行为后是没有任何意义的,数据样本选择还会受到典型数据(上一章的内容)、噪声数据(下一章的内容)的干扰。

数据之间只有关联关系,是不会有因果关系的,只有分析数据背后的行为逻辑才能找到因果,这个就需要多学科融合的知识。

我们在做出决策和判断的时候,依赖更多的是经验、直觉、印象深刻的事,特别是一些典型信息带来的视觉感官上的冲击。

满屏的数字是那么抽象、平淡,而且数字不会主动说话,所以给我们带来了各种困扰。

一些社会学、行为学、心理学、经济学的书籍对toC产品的设计会特别有用,至少我这个外行看来是这样认为的。比如淘宝、拼多多之类的产品设计和研发、运营应该多学习这方面的知识,因为即使是1%的改善对于这么大一个平台也会是一个可观的数字。

可惜的是,商业的本质是逐利,正如我们也要依靠工资生活一样,浮躁的环境给我们沉下心来好好研究的时间并不多。

所以苏格拉底、柏拉图他们很早就意识到,想成为他们这样的智者,有充沛的时间去到处游历、思考的前提除了天分,还得有厚实的家底。

1辛普森悖论

美国有一所大学被指控性别歧视,因为调查时发现,该学校的男生录取比例远高于女生录取比例。

校长大怒,勒令下属各学院自查自纠,各学院负责人马上火急火燎得开始调查本学院录取情况,谁都不想往枪口上撞啊。

各学院拿到自身录取数据后都很理直气壮:我们每个学院录取的女生比例都是比男生高!

校长一看,确实是啊,每个学院录取的女生比例都比男生高,那么是怎么回事呢?

这个案例是年英国统计学家辛普森在论文里提出来的,所以叫“辛普森悖论”。

假设大学只有两个学院,一个数学,一个历史。

报考数学的有个男生,个女生,录取了58个男生,60个女生,很显然女生的录取比例比男生高。

报考另一个历史专业的女生还是个,男生呢少了些,只有3个,录取的时候男生只录取了1个,女生录取了40个,三分之一还是比40%少吧。

所以两个学院的女生录取比例都比男生高。

那么在学校看来呢,女生报名个,录取个,录取比例是50%;男生报名个,录取59个,录取比例我要是算的没错应该是大于50%的。

是不是很不符合我们的直觉感受?

给企业数字化建设的指导意义

数据的分组统计、合并统计可能会有完全不同的结论,甚至完全相反,关键在于分组的规模(也就是分母)的不均匀。

在一些财务数据报表统计、产品分类质检合格率统计等场景中比较容易遇到。

2股票悖论

再来看一个例子。

你有一笔钱买了理财基金,一年后,你的基金经理跟你说:今年我拿你的基金买了支股票,上半年涨了90%,下半年跌了50%。

你的第一反应是什么?

估计是拍着胸脯说还好还好,还能赚个40%,这个基金经理还不错,是不是?

让我们来算一算,假设投资了块钱买理财,涨了90%是块,跌了50%后还剩多少?95块。

很明确是赔了5块钱,这还没算上基金经理要拿走的手续费呢!

所以买股票永远都是涨的慢,跌的快,不管是先涨再跌,还是先跌再涨。

我们来简单算一下,比如块本的股票,先涨10%是块,再跌10%就变成99了;先跌10%是90块,再涨10%变99;要是涨跌比例变成50%就亏得更多了。

涨一天跌一天都没法保持盈亏平衡,靠炒股赚钱太难了。

给企业数字化建设的指导意义

在一些图表展示的时候特别能看出统计数据的假象,比如折线图的标尺,股票明明才涨了一块钱,从10块涨到11,但是纵坐标的起点是从10.1到11.1,而且标尺粒度是0.1元,造成了直线上升的视觉。

同样的手法还可以用在柱状图上,明明每个部门的产量相差的并不多,但是柱状图上高低差距看上去可以像珠穆拉玛峰跟平地那么大。

请记住,不要被直观图形或者百分数所迷惑,有时要多看看真实的数字。

按照福尔摩斯的想法,想凸显什么必然带来的是想掩盖什么,真相往往藏在背后,找寻这背后的真相可能更有意思。

3被平均了

国家或者地区每次出人均年收入值的时候,网上一致的评论是:我们被平均了,我又拖后腿了,诸如此类。

我们认为的比如人均年收入10w块,大部分人都是理解成一半人超过10w,另一半人不到10w,是这样吗?

举个例子,马云带着9个小伙伴开了公司赚了大钱,他自己拿了年薪一个亿;其他9个人的工资暂时先不管,算是正常工资水平吧,平均下来看看呢,人均千万的年薪啊。

这还只是把马云的收入拿来平均了,把其他人的加上还会更高些,有点“一将功成万骨枯”的感慨。

所以我们看到体育比赛里面裁判打分经常是要“去掉一个最高分,去掉一个最低分”,就是要减少“极值”的干扰。

当然统计学里面有中位数、平均值、标准方差、极大极小值等等概念都可以用来描述数据分布状态。

给企业数字化建设的指导意义

单看平均值没有任何意义,有时常常会被极值误导得过于乐观或者过于悲观,中间值不能体现数据的完整分布情况。

如果我们想了解更多更真实的数据分布,要从多个角度去分析从而得出结论。

数字化要做的就是实事求是,如果数字化是用来帮助弄虚作假的,那么只能说这是企业的悲哀。

4是不是艺术家

有一个年轻人,豪迈奔放,喜欢笑,喜欢喝最烈的酒,喜欢开最快的车,暂时就借用古龙这么两句吧,那么我们猜猜这个年轻人是个艺术家,还是个程序猿呢?

相信很多人会认为这个年轻人符合艺术家的特质,因为程序猿给人的形象总是内敛的。

事实确实如此吗?

在单个例子里面,是艺术家的可能性是90%,但是中国的艺术家可能有10万人,从事程序员的却已经有上千万人,百倍的比例乘上去,这个年轻人是程序员的可能更高了吧。

再者,谁说程序员不能豪侠了?

我们常常会被一些特征数据、典型数据所干扰,然后大脑又急于根据这些数据下结论,很显然的还往往可以自圆其说,并没有意识到自己是用了不完全充分的数据来做了直觉上的证明和预测,当然丢失忽略的部分就是事件发生的基础常识或是基础概率。

学过贝叶斯定理的人都知道,计算时需要乘以这个基础概率,但还有一种类似的认知偏差情况,是将不该考虑的事件概率多考虑进去了。

试想一种情况,用一个没有作弊的骰子,连续掷了3个6点,那么你觉得下次还是6点的概率是多少?

大部分的人认为肯定没那么巧吧,连续3次6点已经很不容易了,肯定不可能连续4次6点。

连续扔10次骰子,我们会觉得扔出更容易,而却是天方夜谭。

但其实我们试一下就知道,这两个队列出现的概率都是6的10次方分之1。

我们在猜单次骰子结果的时候,会莫名的将预测下次的结果与前面发生的事件关联起来,总是觉得连续两次的骰子数不应该相同。

给企业数字化建设的指导意义

不能被一些调研数据、采样数据迷惑,从而沉迷于某些细节并且将细节无限放大,或者把偶尔事件当成必然事件进行处理,似乎在佐证自己的直觉判断正确的时候很有说服力。

我们喜欢直观,喜欢对一件事情描述的非常具体,因为这样更符合我们对事件的思考和判断。

但是我们需要知道,描述事件发生的时候每增加一个细节,就是增加了一个条件概率,整体事件的发生概率其实是降低了。

虽然事件越来越明了,但是带来的结果就是会忽视事件发生客观的基础概率,将“条件概率”当成了“独立概率”,我猜大致原因是因为这样可以计算简单。

跟我们打牌一样,水平高的人会记住每一轮次出的牌,从而推断对手牌的分布情况,而不是只看当前轮次,每次都以博一把的心态打牌。

现在一些数字化产品标称的能力,都是包装在特定场景中的。

比如有些AI安监产品号称可以通过人工智能算法模拟爆炸波及范围,来提供园区建设规划建议、救援辅助演练措施等等,聪明的用户自然能够分辨这些所谓的技术实用性吧。

5组合与分解

卡尼曼在《思考,快与慢》里面举的我觉得很牛的例子,不愧是诺贝尔奖获得者,我只能直接搬运过来。

选择题1,从A和B中选一个:

肯定能赚到元;

有25%的概率获得0元,75%的概率什么都没有;

选择题2,从C和D中选一个:

肯定会损失元;

有75%的概率会损失0元,25%的概率没有损失;

在第一组选择题里面,大部分人会选择A而不是B。因为在获取收益时,更期望得到确定性的答案。

第二组选择题,大部分人会选择D而不是C。在有亏损发生的时候,就更喜欢承担风险,更期望“博一把”。

现在看选择题3,是将刚才的选项答案AD和BC合并起来的选项,需要稍微用到一点数学:

AD.有25%的概率获得元,75%的概率损失元;

BC.有25%的概率获得元,75%的概率损失元;

很明显,BC比AD更占优势了,怎么看都是选BC更划算,很奇怪吧。

我们遇到一个复杂问题,应该将它分解成几个简单问题来做决策?还是将所有的因素放到一起做决策呢?

虽然我们知道应该综合各方面因素一起考虑问题,但是实际过程中我们更倾向于分解问题、抽象问题,因为我们更喜欢做出简单直观的判断。

但是上面的例子告诉我们,将复杂问题简单化往往会事与愿违。

给企业数字化建设的指导意义

将复合事件分解为简单事件时,或者反之组合起来,不是简单的线性加减,或者乘除。

比如风险防控或者生产安全,是可以分解的,因为无论哪个点出了事故都是会影响整盘的。

企业的进销存,更符合上面的例子,就不能分解为采购、生产、销售、库存等部门单独考核了,需要全盘统筹规划。

6不得不说的博弈

我们的每一次选择、决策、行为都是自己与自己的、或者自己与他人的博弈,还有部门间的、公司间的。

只要有竞争、有选择的存在,就有博弈。

博弈论作为一门成功的应用数学学科,已经广泛应用在金融、经济、*治等很多领域,自从冯诺伊曼提出博弈论以来,最有名的例子莫过于“囚徒困境”了。

当然这一切归功于塔克,他设计的这个场景太生动贴切了,以至于讲到博弈论第一个就想到了“囚徒困境”,其他案例不能跟它相提并论。

类似的还有如“蝴蝶效应”等概念。

充分说明了一个好的理论不单单是要简单优雅,有一个美妙的佐证案例更容易让人印象深刻。

经典版本的囚徒困境说的是,警察抓住了两个犯人,让我们简单称为甲和乙,这两个案犯都有着很高的犯罪智商,警察怀疑他们一起做了一件大案,但是暂时还没有足够的证据。

甲和乙被关在不同的牢房,以防止他们串供,警察给了他们同样的选择条件:如果你们两人都不招供,那么就会因非法侵入等行为被控告入狱一年;如果你们有一个人愿意指控另一个人,那么这个人马上会被释放,被指控的人会被判20年;如果你们互相指控,那么每个人都要被判18年。

咱们从“上帝视角”看这个问题,似乎很无聊,那就是甲和乙都选“沉默”最划算。

但是这些犯人都很聪明但很自私,归根到底谁都不愿意被关进去。所以从他们的角度都会在想:如果我选了“沉默”,对方选了“指控”,那我不就被坑了?所以我应该选“指控”,关18年总比20年好一些。

所以结论变成了两个人都选了“指控”,被关了18年,按照数学来算就是“双输”的局面,两个人加起来是36年的牢狱。

这个博弈论案例最经典的地方就在于这个悖论:大家都以为自己做出了最佳选择,结果是两败俱伤;大家如果都能做出让步,反而有可能是双赢。

让我们感觉更有意思的是,“囚徒困境”还分“一次性的”和“重复多次”的两种场景。

比如在一些经济学的培训班,就会让大家做这个游戏,给大家每人块启动资金,按照上面的规则来做50轮的博弈,看谁最后剩的钱最多。

当然,游戏规则可以更复杂,比如根据参与人数决定同样的两个人是不是需要重复博弈,毕竟如果你被背叛了,肯定没那么容易放过对方,想要“一雪前耻”。

罗伯特阿克塞尔罗德在《合作的进化》里面就讲到他组织的“重复囚徒困境”竞赛,每个参与方利用计算机程序来定义自己制定的策略,经过多轮比赛胜出的策略是一个只用了4行BASIC语言实现的程序,现在一般的中文翻译成“以牙还牙”,也就是重复前面一回合对手的招数。

很有意思,你对我好,我也对你好,你侬我侬的;你要是坑我一次,那么别怪我也翻脸不认人。

当然研究“囚徒困境”的书很多,更复杂的还有多方参与的博弈,就不再深入了。

企业内部有博弈,比如员工个人之间会有内卷,部门之间会有倾轧。

比如制造部门或者开发部门的kpi是产量,质量部或者测试部的kpi是质量,公司财务部的kpi是成本,这几个就是互为博弈的。

追求产量,或者为了尽可能快的交付,肯定会带来质量的下降;为了提升质量,就会增加质检、测试力度,还会有返工返修,肯定会带来成本的提高。

从前面“囚徒困境”得到的结论看,好的应对措施是“以牙还牙”,怎么做呢?

就是一旦出现质量下降,就增加质检力度;质量上升后,再恢复原有质检力度。

利润率一旦下降,就说明成本变高了,这个时候不能再增加产能,而是应该降低产能。

企业外部的博弈就更多了,比如项目竞标,利润和中标率就是个互相矛盾的指标,价格低了中标的可能性才大,但是利润也低了。

还有价格战,降价策略可能会带来销量的提升,但也会有副作用。

比如美国的林肯和凯迪拉克汽车,在中国采用了降价促销的方式,还记得之前的凯迪拉克ATS换代前,打折甚至到了5折、6折的程度,确实带来了一些热销,但是将自己的品牌也“打折扣”了,以后再想走豪华路线就困难了。

“囚徒困境”有个最关键的地方,就是甲乙之间是不可以沟通的,这个恰巧是突破“囚徒困境”的关键点。如果甲和乙可以协商,那就好办了。

在企业制定商业策略中也是一样,所谓知己知彼,才能双赢,通过多次博弈将“囚徒困境”变为“帕累托改进”,那么怎么来做呢?

简单来说是一方主动在产品质量、价格上做出差异化竞争,扩大更多的服务对象群体。

比如一条街上开两个水果店,一个卖的贵但精致,一个卖的便宜但品相差些,街坊们去看了看,肯定都到便宜的那家去买;但有些需要走亲戚串门的,就会去隔壁买精致带包装的水果礼盒。

一个走量,一个走高端路线,但是很大可能这两家店的老板就是同一个人。

给企业数字化建设的指导意义

解决“囚徒困境”的办法是要争取实现“负负得正”,将竞争关系通过不同层次的、分步骤地进行进而转化为一种特殊的“合作”关系。

最了解你的往往是你的敌人,敌人瞄准的肯定是最薄弱的软肋。

在企业内部管理时要避免错上加错,更要避免大家都是正的,总结果是负的。

要梳理出有博弈关系的部门、业务、数据,明确其对立关系的因果原由,这样对于分辨数据的真伪更有帮助。

比如在人员、设备、工艺没有变化的情况下,产量和质量都提升了。这样的异常情况需要被甄别出来肯定是由某些未知原因导致的,不然热力学第二定律都会看不下去,不会允许这样的情况发生的。

1
查看完整版本: 数字化认知定位偏差认知悖论与数据假象