对的,大数据采集与预处理在大数据
生命周期中,数据采集处于第一环节。根据Map Reduce生成的应用系统分类,大数据采集主要有四个来源。
管理信息系统,网络信息系统,物理信息系统,科学实验系统。对于企业不同的数据集,可以有不同的结构。如文件、XML、
关系表等,并在用于多个异构数据集,需要进一步整合处理的,从不同的数据集的数据的易购。整理、清洗、转换后,生成到一个新的数据集,为后续进行查询和分析研究问题以及处理企业提供信息统一的可视图。针对管理信息系统中异构数据库集成技术,Web信息系统中的实体识别技术和DeepWeb集成技术。传感器网络信息数据融合发展技术已经有很多问题研究主要工作,取得了较大的进展,已经推出了多种
数据清洗和质量管理控制工具。例如,美国SAS公司的Data Flux,美国IBM公司的Data Stag,、美国Informatica公司的Informatica Power Center。