广告
文章
  • 全站
  • 文章
  • 论坛
  • 博客
高级
首页 / 科技 / 科技创新 / 正文
 
广告
 

你又一次被※真实数据§欺骗了

〞〞数据为何总是和事实相反ˋ

我们收集的所谓※真实数据§其实是假的﹝
世界经理人专栏

卤豆干

90后英国博士在读﹝让我们用科学的方式ㄛ找到?#40092;?#20320;的商?#30340;?#24335;﹝转载请联系微信公众号卤豆干(ludouganquan)﹝

当公司需要推出一个新产品ㄗ服务ㄛ管理ㄛ市场ㄘ前ㄛ我们总是需要收集一些数据?#27492;?#26381;股东ㄗ或者我们自己ㄘㄛ这个产品一定会大卖﹝

这时候ㄛ就是各种图表粉墨登场的时候了ㄩ饼状图ㄛ柱状图ㄛ条形图ㄛ折线图﹝﹝﹝

ㄗ这里本来应该有一张图ㄛ但是大家看了太多的PPTㄛ我就不放了﹝ㄘ

我们讲的头头是道ㄛ下面的听众也频频点头﹝※看起来这个产品一定会广受好评?#34180;?#25105;们心里想﹝

然而ㄛ到了真正到了产品销售阶段时ㄛ我们却发现ㄛ根本没有用户愿意买账

我们明明是严格按?#23637;?#33539;收集数据ㄛ仔细的进行科学分析ㄛ每个步骤也有专人监督﹝这些真实数据为何不能反映真实的市场需求ˋ

我们收集的所谓※真实数据§其实是假的﹝

大多数人认为ㄛ假数据只有在故意造假的情况才可能出现﹝而我认为ㄛ有些时候ㄛ错误的收集方式也会产生※假数据?#34180;?/p>

那么ㄛ为何我们会收集到※假数据§呢ˋ

1. 社会期许

※您?#19981;?#21917;什么口味的果汁ˋ§我相信很多人都会如实回答﹝

※您和妻子/丈夫关系好吗ˋ§这个问题就很难得到准确答案﹝

与之类似的还有ㄩ

您的月收入多少ˋ

您认为自己聪明吗ˋ

您对自?#21644;?#35980;评价如何ˋ

在社会科学中ㄛ这叫做社会期许误差﹝人们更倾向于向他人展现正面形象ㄛ所以在回答问题时ㄛ更倾向于申报※?#24049;?#34892;为§来符合社会的期望﹝

这也是为何很多真正的抑郁症患者倾向于隐瞒自己的病情ㄛ因为他们希望能够符合周围环境对他的期望﹝而社会期望人的性格是积极外向的ㄛ这样导致了很多抑郁症患者很?#35759;?#23478;庭袒露心迹﹝

我最近看的一本书ㄛ▲Everybody Lies◎ㄛ就展示了这样有趣的现象ㄩ在社交网站?#24076;?#22312;短句※我的丈夫是§之后ㄛ最常见的形容?#23454;?#21069;五名是ㄩ※最好的?#20445;活?/strong>最好的朋友?#20445;活?/strong>最棒的?#20445;活?/strong>令人惊讶的?#20445;活?/strong>可爱的§

而在搜索引擎上,前五名ㄛ除了一个※最棒的§以外ㄛ其他四个却变成了ㄩ刻薄的?#20445;活?#28151;账?#20445;活?#21516;性恋?#20445;活?#35752;人厌的§

这也就证明了上面的观点ㄩ人们在可能被他人审视的时候会更倾向突出其好的一面ㄛ而在匿名且隐私的环境中才能表达真实的自己﹝

2. 幸存偏差

假设我们来采访一?#24405;?#20010;名人ㄛ他们的成功有什么必经之路ㄩ

乔布斯ㄩ我辍学了﹝

盖?#27169;?#25105;辍学了﹝

扎克伯格ㄩ我辍学了﹝

布特林ㄩ我辍学了﹝

总结ㄩ辍学才能成功﹝

这里出现了什么样的错误呢ˋ

在统计学中ㄛ幸存者偏差是一种很常见的现象﹝即过分关注因为某些经历而幸存的人或事物ㄛ并且将这些经历定义为常识﹝

我们很容易找到类似的例子ㄩ

章鱼保罗在2010年世界杯中连续7次猜对?#28909;?#32467;果〞〞其他猜错的动物没有被报道﹝

2016美国总统大选时ㄛCNN的民调显示ㄛ希拉里支?#33268;?#26356;高〞〞调查时主要选择了民族党支持者﹝

很多?#19981;?#30475;直播的人认为ㄛ主播收入高ㄛ外表光鲜ㄛ所以自己也要当主播〞〞?#20961;?#20027;播占据了全部主播收入的80%以上﹝

3. 胡?#19968;?#31572;

前段时间ㄛ我对YouTube上的视?#21040;?#34892;过一个粗略统计﹝

结果是ㄛ一个在大多数人理解下的优秀视频ㄛ其观看量ㄛ点赞量ㄛ点踩量的比例一般为10000ㄩ100ㄩ2ㄗ这个数据只是一个预估ㄛ请不要作为考量方式ㄘ﹝

而且ㄛ不论是视频多么优秀ㄛ总是会有点踩的人﹝

这种※故意破坏他人体验的点踩§在社会心理学中叫做向下社会比较﹝这?#26234;?#20917;往往是那个人遇到了某些挫折ㄛ通过降低自我评价的参照系ㄗ即让他人的评价降低ㄘㄛ?#27425;炯只?#26497;的自我评价﹝

这也是网络上的喷子和键盘侠ㄛ往往都是在现实生活中遇到了不顺心的事情的人的主要原因﹝

4. 分析错误

在不?#20204;除?#25105;看到某个电影院的大数据分析ㄩ看▲战狼2◎的观众ㄛ有89%的人购买了冷饮﹝而看▲前任3◎的观众ㄛ有73%的人购买了热饮﹝

数据分析得出的结论是ㄛ看动作片的观众更?#19981;?#20919;饮来清凉自己的紧绷的神经﹝而看爱情片的观众更?#19981;?#29992;热饮?#27425;?#26262;自己的内心﹝

战狼2ㄩ2017年7月27?#19976;嫌场炕?strong>夏天﹝

前任3ㄩ2017年12月29?#19976;嫌场炕?strong>冬天﹝

其实分析员只要看看上映时间就知道ㄛ观众选择热饮或者冷饮的根本原因是天气问题ㄛ和电影本身没有任何关系

这种在统计学中被称为混淆了相关性和因果性﹝即分析时过分注重于数据之间的关系比?#24076;?#24182;且将这种关系直接定义为结论﹝

5. 人为造假

就在两周前ㄛ著名心脏专?#31227;?#32822;罗﹞?#21442;?#33832;涉嫌数据造假的新闻轰动了整个病理学界﹝由于他的31篇学术论文造假ㄛ直接导致大量相似的研究直接作?#24076;?#21508;种研究经费的损失高达数亿美元﹝

那么ㄛ他是怎么做的呢ˋ

他在分析数据前ㄛ直接将自己的假说认定为正确的ㄛ然后用很多数据去?#25353;?#33258;己的假说ㄛ如果数据不对ㄛ就换方式来重新将数据?#21543;?#20135;§出来﹝

这种?#22336;見?#22312;很多?#35775;?#25919;客手上就用的炉火纯青﹝特朗?#31449;?#36716;发过※旧金山犯罪统计局§的统计数据﹝该数据显示ㄛ黑人是犯罪的主要根源﹝而实际?#24076;活?#26087;金山犯罪统计局§根本就不存在﹝

人们很容易相信数字所带来的权威性﹝而这种利用数据?#27492;?#35854;的方式ㄛ就是利用了这一点﹝

这五个问题ㄛ导致了调查数据很难真实反映出用户的需求ㄛ从而扰乱了我们的判断能力﹝

那么ㄛ我们如何才能减少这些问题对数据结果造成影响呢ˋ

1. 社会期许〞〞匿名回答

社会期许误差的产生ㄛ是由于被访者担心自己的负面情绪或者状态不被社会所?#37038;隉?/p>

那么最有效的办法就是ㄩ为受访者创造一个完全匿名的ㄛ保密的环?#22330;?/strong>

正如天主教堂里的告解室一样ㄛ完全密封的匿名环境ㄛ加上神父的严格保密ㄛ让信徒可以安心的忏悔自己的罪行﹝

投票箱就是一个很有效的匿名方式﹝例如美国的国家大选ㄛ为了避免大家因为敏感的投?#34987;?#39064;引起争执ㄛ采用了投票箱的方式ㄛ保护了投票者的隐私﹝

另外一个解决方式是随机化回答﹝方式是将问题分为两类ㄛ敏?#34892;?#38382;题与非敏?#34892;?#38382;题﹝我们想要知道敏?#34892;?#38382;题的答案ㄛ而我们已知非敏?#34892;?#38382;题的答案﹝我们可以通过非敏?#24418;?#39064;的答案来反推出敏?#24418;?#39064;的答案﹝

举个例子ㄛ假设我们想要推出一个新式?#34892;?#22686;高垫ㄛ但是不知道使用增高垫的人数比例.我们可以设置两个问题ㄩ

敏?#34892;?#38382;题ㄩ※您是否使用了增高垫ˋ§

非敏?#34892;?#38382;题ㄩ※您的电话尾号是否是1ˋ§

我们先在黑箱里放置两个小球ㄛ一个红色一个蓝色﹝在回答问题前ㄛ要求受访者在黑箱里取一个球ㄛ但是这个球的?#19976;?#21482;有受访者知道﹝

然后告诉受访者ㄛ如果他抽的是红球ㄛ就回答※您是否使用了增高垫ˋ?#34180;?#22914;果抽的是蓝球ㄛ就回答※您的电话尾号是否是1ˋ?#34180;?#20294;是回答者只用回答※是?#34987;蕹?#21542;?#34180;?/p>

那么ㄛ当我们收集到足?#27426;?#30340;数据后ㄛ我们可以得知受访者回答※是§的比例ㄗ设为aㄘ﹝

由于我们知道ㄛ电话尾号为1的可能性为10%ㄛ而抽到红球或蓝球的几率各为50%ㄛ那?#27425;?#20204;就很容易依靠下面的公式推断出使用增高垫的人ㄗ设为xㄘ比例﹝

公式

2. 幸存偏差〞〞用户分层

幸存者偏差是由于受访者的样本过于相似ㄛ导致了数据结果并不能代表所有的用户﹝

由于我们无法对于对所有的用户进行普查ㄛ那么最容易的办法ㄛ就是?#29992;?#19968;个层次的用户抽取数人进行调查﹝

例如ㄛ我们想要对打车软件优惠券的使?#20204;?#20917;进行调查﹝我们就需要将用户分为四类ㄩ

1.  之前使用过打车软件ㄛ后来使用过优惠劵ㄗ老用户ㄘ﹝

2.  之前使用过打车软件ㄛ后来没有使用过优惠券ㄗ未涉及用户ㄘ﹝

3.  之前没有使用过打车软件ㄛ后来使用过优惠券ㄗ新用户ㄘ﹝

4.  之前没有使用过打车软件ㄛ后来没有使用过优惠券ㄗ潜在用户ㄘ﹝

?#29992;?#31181;类别的用户中ㄛ我们选取数人来进行抽查﹝在每个层级的人群中ㄛ我们也要尽量将年龄ㄛ性别ㄛ职业等等区分开来ㄛ这样才能减少幸存者偏差带来的数据偏差﹝

3. 胡?#19968;?#31572;〞〞显示进度

大多数时候ㄛ受访者还是愿意配合采访的﹝让受访者不愿意配合采访的原因只有两种ㄩ外界因素和内部因素

由于我们无法控制受访者的外部因素ㄗ心情不好ㄛ急于做事ㄛ性格内向等等ㄘㄛ那?#27425;?#20204;只能减少内部因素造成的影响﹝

所以ㄛ我们需要尽可能减少受访者对调查感到厌烦的可能性﹝

你们是否发现ㄛ当你安装一个软件时ㄛ就会有一个进度条显示安装的进程﹝而且ㄛ进度条并不是?#20154;?#21069;进的ˋ

这是因为ㄛ进度条可以明确的告诉我们ㄛ我们还需要多久的等待﹝而非?#20154;?#21069;进的原因ㄛ则是经过了科学家的试验ㄛ证明相对于非?#20154;梴此担皈人?#30340;进度条更容易让人感到不?#22836;场?/p>

所以ㄛ在收集数据时ㄛ如果是访?#23454;?#27169;式ㄛ就需要在开始访?#26159;除?strong>告诉受访者访?#23454;?#26102;长ㄛ并且将长问题穿插在短问题中﹝如果是调查问卷的模式ㄛ就需要在前面写明问题的数量ㄛ并且在其?#20449;?#19978;进?#35748;?#31034;ㄗ例如ㄛ已回答25%的问题ㄘ﹝

4. 分析错误〞〞关注外因

我们在分析数据的时候ㄛ如果仅仅关注数据本身ㄛ就很容易出现混淆相关性和因果性的状况﹝

所以ㄛ在数据分析时ㄛ一定要考虑到外界因素所带来的影响﹝

正如第一台ATM机发明前ㄛ巴克莱银行对于用户对于ATM机的态度进行过一次调查﹝用户的数据反馈指出ㄩ相对于冷冰冰的机器ㄛ大家更?#19981;?#28909;情服务的柜员﹝然而银行发现ㄛ由于工会的强烈要求ㄛ导致银行必须考虑在周末放假﹝而很多领取周薪的工人只有在周末才有时间去银行取钱ㄛ那么这些工人的需求就很难满足了ㄛ所以银行依然决定推出ATM机﹝

结果大家都知道了ㄛ现在全球有着高达300万台ATM机为我们服务ㄛ也没有人觉得从ATM机器里面取钱有任何不妥﹝

所以相对于单纯的相信数据ㄛ更好的方式是将数据作为一个参?#36857;?#20294;是根据实?#26159;?#20917;来进行判断﹝

5. 人为造假〞〞规避问题

人为造假的问题是最难以解决的ㄛ因为这个是调查者自己所决定的﹝

现如今在学术界ㄛ最广泛使用的办法就是让调查者签署一个保证书ㄛ利用保证书来?#38469;?#35843;查者的行为准则﹝

然而在公司中ㄛ这样的的方式并不太?#40092;吽?#23398;术界出现了造假问题ㄛ那么这个人今后就无法再进行学术类工作﹝而公司员工的流动性更大ㄛ造假的调查者完全可以去其他公司继续工作﹝

我们只有从员工素?#23454;?#25552;升?#25237;?#25968;据的真实性进行反复检验ㄛ从而对于数据的人为造假进行规避﹝

总结一下ㄩ

1. 社会期许〞〞为受访者创造匿名调查环?#22330;?/strong>

2. 幸存偏差〞〞将受访者分层次调查﹝

3. 胡?#19968;?#31572;〞〞让受访者不对问题产生厌?#22330;?/strong>

4. 分析错误〞〞收集外界因素造成的影响﹝

5. 人为造假〞〞提升员工素质ㄛ检验数据真实性﹝

如果按照这些方式去做ㄛ我们的调查数据准确度就能?#24739;?#22823;的提升﹝

本文系卤豆干授权世界经理人发?#36857;?#24182;经世界经理人编辑﹝文章内容仅代表作者独立观点ㄛ不代表世界经理人立场ㄛ如需转载请联系原作者获取授权ㄛ并请附上出处(世界经理人)及本页链接http://www.32942557.com/it/ma/8800095917/01/ㄛ推荐关注微信公众号ㄗIDㄩCEC_GLOBALSOURCESㄘ

© 世界经理人ㄩ自1999年创立以来ㄛ世界经理人网站(www.32942557.com)致力于引导职业经理人实现卓越管理ㄛ以专业的形象为经理人用户全方位提供最佳管理资讯服务和互动平台﹝

    

 
 

相关文章

今?#31449;?#28966;

 
广告
广告

世界经理人网站App?#30053;?/h4>

热门排行榜

  • 热门
  • 经典
  • 管理
  • 文章
  • 论坛
  • 博客
 
 
控儔pk10坶隅ヶ5鎢撮б