首页 > 胖子哥大数据之路(一)-数据仓库也需要大数据

胖子哥大数据之路(一)-数据仓库也需要大数据

为什么80%的码农都做不了架构师?>>>   hot3.png

一、楔子

  大数据传统企业实施,其路漫漫,绝不会如昙花一现,探索大数据在传统行业的实施之路,寻找一条适合传统行业的企业大数据实施方法体系,是我执着坚守的信念,大数据是一种信仰,吾将上下而求索。记下项目中的点滴,算是日志,自勉。

二、项目背景

  最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业 的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数 据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库 的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做数据分析和知识挖掘,现在却找到了一个新的切入点,才发 现,原来二者并不矛盾。

三、数据仓库与操作数据库

  数据仓库的定义并无统一的说法,通常的到人们认可的概念是:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。简单点说数据仓库就是一种语义上的数据存储,它充当决策支持数据模型的物理实现,并存放于企业战略决策相关的重要信息。

  数据仓库不同于操作数据库,操作数据库的主要任务是执行联机事务处理和查询处理,称作联机事务处理(OLTP)系统。数据仓库系统在数据分析和决策支持方面为用户或者机器学习提供服务,即联机分析处理(OLAP)。二者的主要区别在于五个大的方面:

  1)用户系统的面向性:客户与市场;

  2)数据内容:当前与历史;

  3)数据库设计:ER与面向主题

  4)视图:当前与全景

  5)访问模式:原子事务与只读操作

  传统模式下数据仓库服务器通常采用关系型数据库,也就是说从软件实现的角度,数据仓库和操作型数据采用的模式是一样的。这就决定了,数据仓库和操作数据库面临同样的问题:行业垄断带来的成本依赖、数据模型带来的存储瓶颈和运算瓶颈。

数据仓库的三层架构如下图所示:

四、大数据的位置

  数据仓库系统应用大数据技术的模式还在探索,但是目前总结了几个方面的应用。

  1)大数据作为数据仓库的历史数据存储系统:解决数据仓库只能存储短时段数据的问题

  2)构建基于大数据平台的数据模型,致力于低成本的数据挖掘体系:传统BI的瓶颈在于软硬件绑定、商业垄断和处理性能,基于但数据开源体系的算法模型和并行计算能力,构建全量的数据分析和挖掘,最终目标在于取代原有高成本的BI体系,为企业降低负担。

  3) 实时+离线模式的确立,可以充分利用企业已有的IT资源设施,充分利用成熟的BI技术,从而为企业提供更好的服务。

五、遗留问题

  大数据定位为离线的数据仓库,将会出现三级数据存储模型,实时操作库-数据仓库-大数据资源池,目标有定位已经明确,但是具体实施仍要探索,未完待续...



转载于:https://my.oschina.net/pangzi/blog/199158

更多相关:

  • 本文是西门子开放式TCP通信的第2篇,上一篇我们讲了使用西门子1200PLC作为TCP服务器的程序编写,可以点击下方链接阅读:【公众号dotNet工控上位机:thinger_swj】基于Socket访问西门子PLC系列教程(一)在完成上述步骤后,接下来就是编写上位机软件与PLC之间进行通信。上位机UI界面设计如下图所示:从上图可以看出...

  • 我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧分成几个其他区域,以便我可以分别处理每个数据帧-例如根据价格对每个地区的信息进行排序,以了解每个地区的市场情况。我给出了以下数据的简化版本:Competitor Region ProductA Product...

  • 作为一名IT从业者,我来回答一下这个问题。首先,对于具有Java编程基础的人来说,学习Python的初期并不会遇到太大的障碍,但是要结合自己的发展规划来制定学习规划,尤其要重视学习方向的选择。Java与Python都是比较典型的全场景编程语言,相比于Java语言来说,当前Python语言在大数据、人工智能领域的应用更为广泛一些,而且大...

  • 这段时间通过学习相关的知识,最大的变化就是看待事物更加喜欢去了解事物后面的本质,碰到问题后解决问题思路也发生了改变。举个具体的例子,我在学习数据分析,将来会考虑从事这方面的工作,需要掌握的相关专业知识这个问题暂且按下不表,那哪些具体的问题是我需要了解的呢,以下简单罗列:1、了解数据分析师这个岗位在各个地区的需求情况?2、数据分析师的薪...

  • 这一节将开始学习python的一个核心数据分析支持库---pandas,它是python数据分析实践与实战的必备高级工具。对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。今天,我们就来认识认识数据分析界鼎鼎大名的 pandas。目录一. pandas主要数据结构 SeriesDataFrame二...

  • Bigtable 可以说是log-structed以及page-oriented 两种存储引擎的整合体,我们性能优越的单机存储引擎leveldb和rocksdb就是基于google的bigtable存储系统实现的。 论文地址Bigtable: A Distributed Storage System for Structured Da...

  • 一下为个人结合其他人对分布式存储 所需的技能进行总结,绘制成如下图谱,方便针对性学习。 这里对分布式存储系统接触较多的是ceph,所以在分布式存储系统分支上偏向ceph的学习。 如有分类有问题或者分支不合理,欢迎大家批评指正,目的是为了大家共同提升 文章目录分布式存储技能树Linux操作系统文件系统I/O系统I/O追踪内存管理Pag...

  • 存储过程存储过程分为系统存储过程和自定义存储过程存储过程通过将处理数据的程序从客户端应用程序移动到服务器,存储过程是放在服务器上的,通过客户端下达指令调用存储过程的时候,这个过程是在服务器上发生的,自然就不会占用网络的带宽就会降低网络流量。存储过程就是一组为了完成特定功能的T-SQL语句...

  • 原文地址:https://github.com/jaywcjlove/handbook/blob/master/MySQL/MySQL%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B.md MySQL数据类型 数字类型 整数: tinyint、smallint、mediumint、int、bigint浮点数:...

  • 为什么要用存储过程   几个去 IBM 面试的兄弟回来抱怨:去了好几个不同的 IBM 项目组,几乎每个面试官问到数据库的时候都要问用没用过存储过程,烦人不?大家去面的程序员,又不是 DBA,以前的项目都没有用到存储,不照样运行的好好的? 存储过程真的那么重要吗,它到底有什么好处呢? 笔者认为,存储过程说白了就是一堆 SQL 的合并。...