近日,重庆理工大学管理学院教授张仁军、刘聪,利用大数据抽取和分析手段,绘制了中国食辣地图,然而……根据大数据分析结果显示,贵州人吃
辣椒居然不如重庆、四川和湖南,小编表示严重不服。
首先需要肯定,使用大数据手段分析全国人民喜好辣椒的程度,是值得肯定的。因为,如果采取传统问卷调查形式,要走访分析全国喜好辣椒的程度,几乎是无法完成的任务,而且问卷调查能否保证调查结果的准确性也值得怀疑。因此,张仁军、刘聪选择了从美团、大众点评以及窝窝团的点评数据着手,抽取全国31个省会城市以及9个重点二级城市的点评数据,分析得出中国食辣地图。
地图显示情况基本与真实情况相近,如重庆、四川、湖南、贵州等地为食用辣椒的主要地区,全国除内蒙古中部,浙江和广东沿海地区几乎不食用辣椒外,其他地区对辣椒都不排斥。根据喜好程度排行,前五名分别为重庆、长沙、成都、武汉和贵阳。从这点来看,小编表示严重不服,因为根据生活经验显示,贵阳的喜辣程度绝不低于重庆、长沙等地。而且地图上还显示,贵州喜好辣椒的程度几乎和新疆一致,这点更加不能让小编释怀。
那么,问题出在哪呢?可能还是数据采集方面。为了绘制地图,张仁军和刘聪共采集了5万多分点评数据,但是其主要点评数据的来源是源自于窝窝团,这个市场占有率仅有4.84%的团购网站,而且这一团购网站在贵州应用率还特别低,至少在使用率前100名的APP中找不到它的踪迹。虽然从统计学的角度来看,采集样本也可以得到真实的情况,不过采集样本量过少,其真实度就值得商榷了。
通过这一次相对不算成功的大数据分析尝试的例子,我们可以进一步认识大数据分析的要义。首先是样本量要足够大,少量的样本分析结果不能得到真实的情况;接下来是,样本的维度要足够广,比如分析食辣情况,不能简单通过团购网站就武断的得出结论,小编以为至少要嫁接如辣椒产量,市场销售量等数据。需要特别指出的是,多维度是大数据分析的关键点,可惜很多大数据分析报告,往往对这个要点进行了有意无意地忽略,这是一个严重的误区,值得深思。