
1.2 数据从哪里来
做大数据应用时,有DDA(数据驱动应用)模式,也有ADD(应用驱动数据)模式,无论哪种模式,首先是要确定:“数据从哪里来?”

当今世界,大数据无处不在,它影响到我们的工作、生活和学习,并将继续施加更大的影响。当做一个大数据项目时,我们首先要考虑的是需要哪些数据,然后再想清楚数据从哪里来,这是我们做一款大数据应用产品需要解决的问题。没有数据就无从谈起应用,没有数据的应用也只是空中楼阁,镜中花,水中月。
没有数据做支撑的产品只是一具空壳。对于大数据行业来说,数据不是万能的,但是没有数据却是万万不能的。
数据存在于浩瀚的互联网中,数据存在于复杂的业务系统中,数据存在于运营商的线路中……我们吃过的每一顿饭,说过的每一句,走过的每一个地方,看过的每一本书,买过的每一件东西,刷过的每一条微博,回过的每一条帖子,去过的每一个酒店,飞过的每一次航班……都将成为数据,所有的一切一切汇聚在一起就是我们想要的数据。看似无用的东西,一直被我们忽略的东西,现在才发现它们竟然变得如此有价值。数据的“四即”原则:

◆数据即资本。
◆数据即资产。
◆数据即资料。
◆数据即资源。
数据的类型有很多种,根据不同的维度,可以分出多种类型,这里我们不再一一赘述,就从应用而言,我们在做一款大数据产品的时候,通常会从以下三个方向去考虑数据来源,这也是我们在长期的实践中抽丝剥茧,化繁为简总结的方法。也许不是那么太“专业”,但是往往很实用,可谓屡试不爽。
1.开源数据
开源数据包括了互联网数据、移动数据网数据,互联网平台和移动互联网平台通过采、编、发或者通过用户互动产生的数据,公之于众,供网民或用户访问、浏览。

互联网和移动互联网蕴藏着丰富的公开数据资源,通过获取这些数据,可以作为行业应用开发的有力支撑。这些数据散落于大大小小的各类网站以及手机应用中,包括门户网站与垂直网站,以及电商和社交媒体中,甚至政府政务公开数据以及地图数据。
各互联网网站和移动互联网平台、APP,大部分都只关注于其行业属性与业务属性,如果合理利用大数据,将产生一个新的增值业务和新的利润增长点。
2.业务数据
业务数据产生于各单位的信息化系统中,尤其是内部的信息化系统,我们统称为业务系统。在目前的单位业务系统中,存在于单位的OA系统或者CRM之中,其中蕴含了大量的工作数据和交易数据,以及客户管理数据,包括交易数据、流水数据、记账数据、借款数据、贷款数据等业务数据,这些数据构建了每天的系统日志,同时又是账户余额、信用额度、购买能力等的有力补充,这些数据不仅对生产系统起到计费支撑作用,同时也是用户(银行客户、电力客户、担保公司等)进行相关决策的重要基础,所以目前很多单位需要对这些数据进行查询统计和分析。
国内的信息化建设已有20余年的历史,比如政府的电子政务、平安城市、智慧城市的建设,比如企业的企业信息化,一直在建设,一直在升级,沉淀和积累了大量的数据。而这些信息化建设,更多是从“工作流”的视角出发,是时候从“数据价值”的角度出发,以大数据应用为切入点,再次激活这些应用,释放这些信息化建设的价值。

3.线路数据
无论是互联网还是各种内网,任何的网络行为都需要经过“线路”进行链接和交互,而在这条线路上,要经过无数的路由交换得以完成,这条线路在完成链接的同时,也记录与存储了大量的数据,我们统称为线路数据。
国内拥有线路数据的主要是电信、联通、移动等运营商,以及围绕通信运营商的IDC机构等。
除了电信运营商,还有路由与交换的各种设备商,也拥有丰富的线路数据。
从有线到无线,从无线到桌面(端),无线Wi-Fi也是一条复杂的线路,流经线路的数据也可能被存储、解析、还原。
通信企业拥有的大数据主要来源于互联网、移动互联网等,以非结构化为主,构成更全面数据源,如上网行为数据、网上交易数据、位置数据、网管数据、信令数据、微博数据、即时通信数据、网页、传感器数据、音频数据、视频文件、图片、日志、实时监控视频等。

对于移动运营商来说,作为数据管道,本身拥有众多的数据资源,具有天然的优势,更应该利用大数据挖掘,为移动运营带来更多的竞争优势。大数据可以助力移动运营为用户提供更好的体验;降低运营成本提升运营效率;带来新的增长点以及更多的业务机会。
运营商的数据管道是一切互联网的基础,由此打造的“网络入口”使得运营商可以获取互联网上几乎所有的信息。由于手机实名制因素,运营商大数据具有准确性高、地域全覆盖、业务全覆盖、时间连续性好等优点。
数据来源还有很多,从不同的维度来分又可以分出多种类型,但仅从数据应用的角度来讲,这三种数据来源给我们指出了一个寻找数据来源的方向。