5月27日,贵阳数博会城市全域免费无线网络与块数据下的产业发展论坛举行。微软研究院高级研究员郑宇在论坛上说,大数据是从端到端的,数据的获得、管理和分析,需要真正的数据科学家推动。
因为有云计算,从气象条件到地理数据,如果使用得当,我们就可以从这些数据里面发现问题,并进一步利用这些数据解决我们城市面临的问题。基于这样的挑战和机遇,我们从2008年开始提出城市计算的愿景,包括从城市数据下面的感知,到城市数据的管理,到城市数据的分析和挖掘,再到服务的跟踪提供。通过这些技术,我们可以可以缓解交通拥堵,改变城市计划。这些的前提是,我们需要同时用到一个数据源,如何利用不同的数据源做到“1+1大于2”。
郑宇说,以前只能告诉你这个城市温度是多少,某个站点度数是多少,但利用云计算,今后可以告诉你未来48小时这个地方的空气质量是怎么样,其中前6个小时可以做到预报,预报每个站点空气质量指数是多少。这样的计算,不是用一个站点本身数据,做这个站点的空气质量预测,而是把周边300个站的数据输入,例如可以把北京、山东、天津、石家庄的数据全部拿来输入,最后我们就可以预测到空气变化的情况。
我们做大数据,为什么用大数据?之所以说空气质量预测很难,因为空气质量预测有很多复杂因素决定,我们没有详细的数据。比如受到汽车尾气排放的影响,我们不可能拿到每辆车的汽车尾气排放量,我们没有办法在未来48小时预测每个小时到底刮风还是下雨,风速、风向怎么样?我们做不到,天气预报准确只有40%。
大数据是从端到端的,从数据获得、管理,到分析再到到可视化,需要很强的知识,需要真正数据科学家推动。大家问我什么是数据科学家,他需要什么。下面就是真正的数据科学家,他知道这个信息跟什么因素相关,他理解各种各样的数据,知道不同数据里面反映什么含义,把数据跟问题对接。他知道,各种各样的模型,包括数据管理模型、数据挖掘模型,以及可视化的模型。数据科学家需要站在一个平台上看三个问题,把三个问题看透,提取智能,拿到数据放到自己的模型里面有机结合,最后做到端到端的结合,这就是真正的数据科学家。