首页 > 北京年会和关于数据仓库板块的思考

北京年会和关于数据仓库板块的思考

说实话我认为是一个喜欢研究技术的人,虽然我的 Oracle 、 Sybase 、 SQLServer 等数据库 水平实在很菜,甚至 Powerbuilder,VB,Java 水平也不过尔耳;在火车上是和 hanson 、 yxyup 、 yeahy 三位 Oracle 高手一起入住的;在 08 年会 上新认识的 warehouse 、 zhouwf0726 、赵宇;包括 ningoo 、 blue_prince 、 xzh2000 、 piner 在内的淘宝的一系列的 DBA ; yangtingkun 、 D.C.B.A 、 rollingpig 这样的牛人;其他 DBA 像老朱、 diablo2 虽然是 DB2 或者已经不做数据库了;还有棉花糖这个好学生; ora-600 这个职业讲师兼自由人;已经当了官的 QQ 小鸟; HP 的 yanggq 、 fusnow 、 skyjiang ;当然还有 eygle 和 biti 这两位超级牛人,虽然他们不一定认识我; Oracle 板块的斑竹我应该认识一半有余了;总的来说给我的感觉他们的数据库功底非常的深厚, Oracle 的 DBA 队伍越来越庞大,人才济济;这一点看看数据库的分会场就知道了,这一块也是 itpub 安身立命的基础 ,也是打败各个其他论坛的基石,衷心希望 itpub 能够坚持下去, DBA 能够一代一代的传承下去;环顾过去数据仓库只有我和 flywolf2000 两个人参会,未免太形单影只了,当然数据仓库并不是我们两个可以代表的。
当然除了 itpub 之外还有一些其他活跃的论坛和群组,像 TTNN 、 dwway 、 ChinaBI 、 BI 立方体-商业智能社区、 CSDN 的子板块。
http://www.dwway.com/ 好像那里需要发表原创文档才能成为正式会员,反正我发了一篇之后就没去过了,要求门槛太高,变成阳春白雪了,对于普及和发展阶段的 BI/DW 并非什么好事。
http://www.ChinaBI.com/ 网站口气很大,不过似乎并不活跃,那里的文章转载居多(当然也包括我的,曾向我约稿过,后来就没怎么谈了),所有的博客访问量比我多一些,以介绍案例为主
http://www.bicubes.com 是个刚成立的网站,最近折腾的比较厉害,刚开始在 itpub 上做广告,还因为转载文章的缘故,在数据仓库板块 PK 了一阵子,着是热闹了一阵子,没理会他,最近联合 TTNN 组织过两次 BIER 的聚会。曾经想注册看看虚实,无奈新浪邮箱注册不了也就算了,不过更新很慢。
http://groups.google.com/group/ttnn 算是个比较火的 BI/DW 讨论群组了,每个月定期会出一本电子杂志,创办人独立支撑了两年 ( 确实很不容易 ) ,务虚和耍嘴皮子的太多而真正做架构的很少,很多东西流于概念 ,谈不到一起,后来我也就是定期去下载杂志,不怎么发言了。道不同不相为谋,没准别人认为我层次太低呢。上面的数据仓库板块可以忽略不谈了
itpub 的数据仓库板块现状又如何呢?
只能说数据仓库板块依托于 itpub 数据库板块和社区功能情况还不至于太糟糕;搞数据库的往往自以为数据库和性能优化可以解决一切数据仓库问题,自然不屑于这些有些理想化和过于理论化的东西,像盛大好像就是如此花了很多时间请外面的人讲解数据仓库基本知识; ebay 倒是有一批专职数据仓库人员的,可相当部分是 HP 过去的,因为 ebay 的数据仓库就是 HP 的人在维护和实施的;呵呵,不知道淘宝的数据仓库如何; itpub 上讨论具体工具使用的太多,还处于初级阶段,当然这和数据仓库自身的特点很有关系, BI/DW 包括了数据库、 OLAP 、报表展现工具、 ETL 工具等等,每种又包括若干主流工具,数据仓库解决方案可能由几十种组合方式,大家疲于奔命只好学习 工具而不能自拔了;稍微有些数据仓库工作经验的就开始务虚了,讨论这个概念那个概念的,以为概念能解决任何问题;有些人过分拘泥于数据仓库的概念,对数据仓库、数据库、 OLAP 、 BI 本身的概念纠缠不休,殊不知数据仓库本身就在不断的发展过程中;有些人还对业务驱动还是技术驱动的第一驱动力产生了兴趣,曾经在数据仓库板块发动了一场轰轰烈烈的辩论;新概念只能是为了吸引新的用户群体发展客户群来用的,不管怎么数据仓库的本质没有改变。
说了这么多,那数据仓库究竟是什么呢?
数据仓库定义为 “ 一个面向主题的、集成的、随时间变化的、非易变的用于支持管理 的决策过程的数据集合 ” 。也就是说数据仓库是个数据集合,它的载体依然是数据库,不过和大多数联机在线系统( OLTP )在目标用途特性上已经有了本质的区别。
联机事务 处理系统 (OLTP) ,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间。 OLTP 系统的主要特点就是事务处理、面向应用、反映当前情况。
数据仓库的目的则是为了解决在信息技术 (IT) 发展中存在的拥有大量数据、然而有用信息贫乏 (Data rich-Information poor) 的问题。如何把数据转换成信息,进一步把信息转换成知识的过程。数据仓库的特点则是面向主题、集成性—企业数据框架、历史性、稳定性。
说到底数据仓库不是一门纯粹的技术,不是数据库不是 OLAP 不是 ETL 甚至不是 BI 工具,从数据库角度来看,良好的物理设计和性能优化只是其手段而不是目的,数据仓库允许数据的冗余允许长时间的运行;它应该是一种体系结构,它的核心是在于对于数据的整合,通过抽丝剥茧把企业原始数据进行集成、归类、分析,从而提供了企业决策分析需要的 KPI ;同样它也是一个过程 ETL 对数据进行集成、整合、清洗、转换和加载,并在实践和与用户确认中不断的校验,其最终目标是为了达到整合企业信息信息,提供决策支持。
因此数据仓库本身应该包括两个问题:逻辑结构和物理结构物理的就是数据仓库架构问题,一套好的解决方案应该是有弹性的, ODS 区、明细数据数据区、汇总数据区(也叫事实表);以及数据库、 OLAP 、报表工具、 ETL 处理一个都不能少;数据库作为数据仓库的载体,而且是超大数据集合的存储,其性能和分层设计自然是重中之重; OLAP 关系到多维立方体和数据的展现效率和效果;报表工具是用户的门户,良好的用户体验也是系统的关键; ETL 呢是数据仓库最为关键的地方。 ETL 既可以是纯粹的数据库脚本也可以是 ETL 工具本身的可视化界面, ETL 工具本身提供了屏蔽各个异构系统之间的复杂接口,提供了集成转化抽取装载的一致化接口,甚至提供了性能优化的途径,也相应的也减化和弱化了 DBA 的工作。当然 ETL 工具的优化无论如何也比不上 DBA 的优化结果。某种程度上仍然需要数据仓库 DBA 的参与。
逻辑的主要是指业务问题,如果只是数据迁移和数据的集中,达不到决策支持的目标,便失去了数据仓库的意义,因此业务问题才是数据仓库项目成败最重要的关键环节,所以必须有商务领域知识专家、 IT 专家的角色 ( 就是通常所说的咨询顾问 ) 和甲方的积极参与,这些人往往具备比较资深的行业背景,具备丰富的独立实施该行业信息系统建设的经验,了解该行业最先进和通用的标准和规范,同时在结合现有企业信息系统的基础上,以及融合企业发展战略的基础上,提出当前企业的业务模型,来帮助企业提高决策支持分析能力。这一点我不是行业专家,不敢谈及太多。
年会的时候, Sybase 公司的卢总找 flywolf2000 和我谈起邀请 Ralph Kimball 来华授教的问题,想通过 itpub 了解和调查一下用户可接受的前景,毕竟邀请大师来也是一笔不小的费用。如果能和 it168 联合举办也不失为宣传 it168 和 itpub 的一种策略,至于其他的论坛还没有足够的财力来支撑这笔联办费用。 Infosys 曾经邀请过数据仓库的鼻祖 Bill Inmon 到印度培训了两周,留下了很多的宝贵资料。在我看来他们没有什么本质的区别,只是细节和实施方法上有些差别而以,大概是因为我读的书确实不够多的缘故。
尽管数据库和数据仓库本质上和要求是不同的,而令我感到惭愧的是我工作了很多年, Oracle 从使用到现在也经历了 8 个春秋了,却还不如那些论坛里面学了 2 年 Oracle 的人厉害,也许 Oracle 数据库管理确实不是我的专长,但是学好数据库无论如何对数据仓库的物理架构设计还是有着至关重要的影响的,有一技之长总是好的,像我总是飘忽在博而不精、杂而不专的陷阱之中;我希望能够像各位 Oracle 牛人学习,并在此再向那些深耕于 Oracle 的 DBA 表示深深的敬意!
 

更多相关:

  • 本文是西门子开放式TCP通信的第2篇,上一篇我们讲了使用西门子1200PLC作为TCP服务器的程序编写,可以点击下方链接阅读:【公众号dotNet工控上位机:thinger_swj】基于Socket访问西门子PLC系列教程(一)在完成上述步骤后,接下来就是编写上位机软件与PLC之间进行通信。上位机UI界面设计如下图所示:从上图可以看出...

  • 我有一个大型数据集,列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程,根据区域将该数据帧分成几个其他区域,以便我可以分别处理每个数据帧-例如根据价格对每个地区的信息进行排序,以了解每个地区的市场情况。我给出了以下数据的简化版本:Competitor Region ProductA Product...

  • 作为一名IT从业者,我来回答一下这个问题。首先,对于具有Java编程基础的人来说,学习Python的初期并不会遇到太大的障碍,但是要结合自己的发展规划来制定学习规划,尤其要重视学习方向的选择。Java与Python都是比较典型的全场景编程语言,相比于Java语言来说,当前Python语言在大数据、人工智能领域的应用更为广泛一些,而且大...

  • 这段时间通过学习相关的知识,最大的变化就是看待事物更加喜欢去了解事物后面的本质,碰到问题后解决问题思路也发生了改变。举个具体的例子,我在学习数据分析,将来会考虑从事这方面的工作,需要掌握的相关专业知识这个问题暂且按下不表,那哪些具体的问题是我需要了解的呢,以下简单罗列:1、了解数据分析师这个岗位在各个地区的需求情况?2、数据分析师的薪...

  • 这一节将开始学习python的一个核心数据分析支持库---pandas,它是python数据分析实践与实战的必备高级工具。对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。今天,我们就来认识认识数据分析界鼎鼎大名的 pandas。目录一. pandas主要数据结构 SeriesDataFrame二...

  • 【知识点梳理】 ________________________ 一、熟练Spring操作数据库 bean → IoC:控制反转 完成实现类的单例生成 property → DI:依赖注入 各种属性(属性类ref) DI 注入方式 → 1、setter注入;2、构造器注入;3、注解注入 _______________________...

  • 安装数据库 安装数据库的时候我们需要安装三个软件,使用下面的命令,可能还会出现一些问题,关于数据库的安装,大家可以上网自行百度 yum install mysql yum install mysql-server yum install mysql-devel 我个人的理解大概是这个样子的,我们首先需要在自己的操作系统里面安装m...

  • 1.SQL的定义 结构化查询语言(Structured Query Language)简称SQL,SQL语句就是对数据库进行操作的一种语言。   2.SQL的作用 通过SQL语句我们可以方便的操作数据库中的数据、表、数据库等。 3.SQL的分类 1. DDL(Data Definition Language)数据定义语言用来定义数据库...

  • 云计算时代的高可用数据库是可扩展、容错且与任何私有云或公共云兼容的数据库实例。它们旨在提供业务连续性,而不会因任何类型的硬件或网络故障而导致用户体验的影响。其核心设计原则是消除任何单点故障,并提供平稳的故障转移体验。 公共云和私有云使企业能够摆脱容易出错的传统架构,并运行具有可靠性为5个9和6个9的应用程序。业务应用程序可以按需、即...

  • java的代码就不说了,毕竟不是我的主业。 1.c#数据库连接池Hikari.    (1)动态加载各类数据库驱动   (2)支持简单配置文件 (3)支持按照名称多数据库调用 (4)使用简洁  单数据库使用: HikariConfig hikariConfig = new HikariConfig(); hikariConfig.L...