【抒情随感】数据之美

发布者:孙建宁发布时间:2018-11-09浏览次数:15

 开学已经有一段时间了,大三的日子也过去了快一半。当初选方向的时候,我选择了数据科学方向,时至今日,我也终于发现了数据之所以称之为科学的原因。

 一场细雨过后,我在自习室做数据科学导论的第一个实验:爬虫爬取数据并分析数据。我选择爬取某网站上的上海地区的互联网行业招聘信息。这可是费了我好多功夫,光看懂html结构找到相应标签简单做了一个小测试就花费了一晚上,终于在花费了三天时间后,我终于成功爬取到了数据并做了分析。

 大概你们想象不到,成功爬到数据的心情和成就感——大概是一棵芽终于破土而出看到阳光的成就感!

 当我看到一行行数据的时候,当我计算出每种职位的需求数量之后,我终于意识到了数据的重要性。你可以通过数据分析出上海哪个地区对互联网行业的需求量更大,可以知道哪门语言所需要的岗位更多,可以知道那种岗位的平均工资更高。我通过爬取数据可以对上海的互联网招聘状况有一个更深的了解!看吧!多么美妙啊!

 而我爬取的这几千行数据还远远不能称得上大数据。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。这才是大数据!

维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。

在我们的生活中,大数据也随处可见!比如,腾讯在把广告推广给每个用户的时候,都已经对用户做过精准的分析。通过收集人们在微信上使用习惯,进而分析用户的消费能力、消费习惯,形成一套精准营销方案后,给广告商生成一些定向的广告:兰蔻的广告就从来不会推广给男性用户、豪车广告也不会推给应届毕业生!

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”

其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

看吧!数据多么美妙啊!它彷佛知道你的心事呢!(文、图/李雅菲 蔺腾腾)


图为实验做出的数据分析饼图