02-20

科普小课堂:大数据是这么回事?


香农的信息论中给信息以明确的定义“信息是用来消除不确定的东西。”信息量的大小是由信息能够消除不确定性的多少决定的。 

例如:对于门口有一个人。A和B给出了这样的描述。

   A:门口有个年轻人,男性,穿了橘红色的上衣,身高一米七左右。挎着一个耐克的背包,带着眼镜。

   B:张小华在门口。

门口的人到底是谁这个问题?对于A和B的描述,到底谁的信息量比较大呢?

这个信息量的大小,也会由听她们描述的人决定的。我们假设小明与小红是听众。

小明认识张小华,对于确定门口人的身份来说,小明听到B的描述可以直接清楚门口人员的身份,通过张小华的名字,直接关联出小明大脑中一切关于张小华的信息。那么B的信息量是很大的,如果只是听到A的描述,小明就只能去猜测这人是谁?

小红不认识张小华,那么听到B说门口的人是张小华时,大脑依旧是一片空白,并不能消除心中任何疑惑。反倒是A的描述可以让他在脑海中展现出张小华的轮廓。那么对于小红来说,A的信息量是很大的。

信息的价值是由信息本身和接收者的理解能力决定的。如果接收者无法解读信息,即使信息价值量再大也是没有意义。如果接收者理解能力强大,即使看上去信息量很小,那么信息价值也是非常大的!

我们谈论大数据,重视大数据,不能盲目,要辨证的看待大数据分析的价值。既不要对大数据分析盲目的崇尚和迷恋,也不能弃之如敝履,这是两种极端可怕的态度。

过分的迷信大数据,会导致很多决策缺乏支持,会遇到很多“我知道/我不知道”的东西。对于它的分析,会让我们发现很多新的问题和规律,而这些问题,之前是不知道的。大数据让我们发现了这些问题,但是大数据本身很难提供解决方案。如果过分依赖大数据来解决问题,那么决策会变得非常困难。

同样如果对大数据弃之如敝履,那么会丢掉很多“我知道/我不知道”的东西。通过大数据分析可以发现很多问题和规律,这些问题是我们之前不知道的,但我们不知道,并不代表问题不存在。如果不进行大数据分析,那么这些问题将不会被发现,问题的解决更无从谈起。大数据分析可以让这些“新”的问题和规律显现出来。让我们可以更清晰的认识和看待问题,从而为问题的的解决提供可能。

案例中A的描述与现阶段的大数据情况非常相近。随着数据信息化的提升,大数据可以从各个角度去描述我们所发现的蛛丝马迹。但是大数据本身缺乏强关联性,这意味着,大数据可以帮我们消除很多的不确定性,让我们知道很多。但是,大数据无法完全消灭不确定性,让所有的事情都清晰明确。

 那么处于大数据时代的我们,到底该考虑哪些问题呢。

1、还有哪些信息值得我们去收集?

2、目前的数据收集方式是否可以提升和改进?

3、从什么角度对数据进行解读?

4、有什么方法可以更好的解读数据?

      关联性可以为数据插上翅膀,让数据在更广泛的空间发挥作用价值,保持数据的关联性是我们处理数据时所需要考虑的重要内容。