我的hadoop学习之路

首页 > 我的hadoop学习之路

我的hadoop学习之路

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。

HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。

NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop 学习之Docker 参考：http://www.cnblogs.com/frankliu/p/8303225.html

转载于:https://www.cnblogs.com/frankliu/p/8278566.html

更多相关：

php读取西门子plc_基于Socket访问西门子PLC系列教程（二）

本文是西门子开放式TCP通信的第2篇，上一篇我们讲了使用西门子1200PLC作为TCP服务器的程序编写，可以点击下方链接阅读：【公众号dotNet工控上位机：thinger_swj】基于Socket访问西门子PLC系列教程（一）在完成上述步骤后，接下来就是编写上位机软件与PLC之间进行通信。上位机UI界面设计如下图所示：从上图可以看出...
python数据框命名_Python-根据列值将数据框分为多个数据框，并用这些值命名 - python...

我有一个大型数据集，列出了在全国不同地区销售的竞争对手产品。我希望通过使用这些新数据帧名称中的列值的迭代过程，根据区域将该数据帧分成几个其他区域，以便我可以分别处理每个数据帧-例如根据价格对每个地区的信息进行排序，以了解每个地区的市场情况。我给出了以下数据的简化版本:Competitor Region ProductA Product...
有java基础的人学python_准备自学Python ，会java，有什么建议吗？

作为一名IT从业者，我来回答一下这个问题。首先，对于具有Java编程基础的人来说，学习Python的初期并不会遇到太大的障碍，但是要结合自己的发展规划来制定学习规划，尤其要重视学习方向的选择。Java与Python都是比较典型的全场景编程语言，相比于Java语言来说，当前Python语言在大数据、人工智能领域的应用更为广泛一些，而且大...
v-model无法对返回的数据进行填写_学会数据分析思维，学会透过事物看本质

这段时间通过学习相关的知识，最大的变化就是看待事物更加喜欢去了解事物后面的本质，碰到问题后解决问题思路也发生了改变。举个具体的例子，我在学习数据分析，将来会考虑从事这方面的工作，需要掌握的相关专业知识这个问题暂且按下不表，那哪些具体的问题是我需要了解的呢，以下简单罗列：1、了解数据分析师这个岗位在各个地区的需求情况？2、数据分析师的薪...
c++控制台应用每一列数据如何对齐_Python数据分析第五节 pandas入门

这一节将开始学习python的一个核心数据分析支持库---pandas，它是python数据分析实践与实战的必备高级工具。对于使用 Python 进行数据分析来说，pandas 几乎是无人不知，无人不晓的。今天，我们就来认识认识数据分析界鼎鼎大名的 pandas。目录一. pandas主要数据结构 SeriesDataFrame二...
一篇文看懂Hadoop

我们很荣幸能够见证Hadoop十年从无到有，再到称王。感动于技术的日新月异时，希望通过这篇内容深入解读Hadoop的昨天、今天和明天，憧憬下一个十年。本文分为技术篇、产业篇、应用篇、展望篇四部分　　技术篇　　　　2006年项目成立的一开始，“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在...
Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）...

　　很多人只会，但没深入体会和想为什么要这样？　　拿Hadoop来说，当然，spark也一样的道理。　　输出路径由Hadoop自己创建，实际的结果文件遵守part-nnnn的约定。　　如何指定一个已有目录作为Hadoop作业的输出路径，作业将无法进行，并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将输出存储到一个目录，...
两台ubuntu虚拟机环境下hadoop安装配置

http://blog.itpub.net/26978437/viewspace-730136/ 按照上几篇的内容，安装好两台ubuntu虚拟机之后，首先确定好哪台机子做namenode，哪台做datanode，打开终端,输入：$sudo vi /etc/hosts 在打开的文件中输入主机名和IP地址，比如我的是： 127.0.0....
linux下安装hadoop

关键词：Ubuntu;hadoop; 注意：开始这一步之前，需安装Oracle的jdk，参见： http://www.cnblogs.com/fengfengqingqingyangyang/archive/2012/11/06/2756981.html 1、下载hadoop的合适版本：http://labs.mop.com/apa...
linux 删除含有关键词的文件_误删除Linux系统文件了？这个方法教你解决

本文来自运维人生，作者：fly是个稻草人链接：http://www.ywadmin.com/?id=76误删除linux系统文件了？不用急，本文将给你一个恢复linux文件的方法，让你轻松应对运维中的各风险问题。方法总比问题多~说在前面的话针对日常维护操作，难免会出现文件误删除的操作。大家熟知linux文件系统不同win有回收...
mysql低权限用户getshell_GetShell的姿势总结

原文来自SecIN社区—作者：WiHat0x00 什么是WebShell渗透测试工作的一个阶段性目标就是获取目标服务器的操作控制权限，于是WebShell便应运而生。Webshell中的WEB就是web服务，shell就是管理攻击者与操作系统之间的交互。Webshell被称为攻击者通过Web服务器端口对Web服务器有一定的操作权限，而...
文件系统类型是ntfs无法确定卷版本和状态_硬盘写到一半时断电，文件系统里会发什么？...

断电时文件系统发生了什么？硬盘又发生了什么？下一次开机时写到一半的文件在系统层面还在吗？在底层还在吗？更进一步的, 文件系统如何保证事务性, 会不会存在某种极端情况导致例如最后几个bit还没写完, 文件系统却认为它成功了的情况?回答不限任何文件系统，谢谢！下面是「北极」的回复分享断电的一瞬间，很多事情是无法确定的：1. 你无法确定...
python页面跳转中_python web页面跳转

接到项目需求。需要搭建一个页面进行交互，慢慢来b (2).jpg使用python django框架进行页面的搭建在项目文件下打开窗口，输入命令;django-admin startproject helloword#在文件helloword/helloword/创建view.py在view.py文件中输入以代码from django....
PCL安装常见的错误集合解决方案（一）

常见的错误集合解决方案（一）No.1提示错误'Microsoft.VC90.CRT,version="9.0.21022.8"把Microsoft.NET Framework 3.5.1下面的全部勾选上。No.2解决Qt Designer设计的图标但是VS生成不显示问题描述：在Qt designer中为菜单栏和工具栏设计的图标，但是...