首页 > Dell PowerVault TL4000 磁带机卡带问题

Dell PowerVault TL4000 磁带机卡带问题

    最近一段时间Dell PowerVault TL4000 磁带机故障频繁,昨天我在管理系统里面看到Library Status告警:HE: sled blocked, error during sled movement to rotation position Code: 8D 07 ,Dell工程师根据Code: 8D 07判断是磁带卡带了,于是有幸和Dell的工程师对这台机器”开膛破肚“,一窥其内部构造。遗憾的是忘了拍照了。

 

 

原因分析

出现这个错误编码是磁带卡住了,卡带大体分两种 : 磁带自动加载机的卡带 &  磁带库卡带

    下面介绍摘自博客:http://shehui.hc360.com/space.php?uid=7417480&do=blog&id=1119767

二、 磁带自动加载机的卡带常见故障:

    1. 磁带自动加载机的卡带故障可以分为两部分,分别为驱动器和加载器及传动机构,驱动器的情况同上我们

就不在讲了,主要讲一下加载器和传动机构卡带的情况,这类机器的代表型有HP 1/8系列及IBM 3581系列,这两个

系列的机器结构是基本一样的,要把磁带正确的加载到磁带驱动器里,要通过加载器和传动机构,卡带的故障主要

在这两个环节中发生,加载器损坏及传动机构定位不准是卡带的主要原因,这种故障主要是由于皮带老化,相关传

感器失灵,机械磨损过大,伺服电路损坏等原因造成的,这两类型的机器手册上都有相应的故障码可查,对于用户

来说指导意义都不是很大,因为用户没有经验和相应的配件可换,我建议请专业人员进行处理。

    2. 对于HP G2这类的加载机或SUN SL24(SUN公司称这个档次机器也叫加载机),这类加载机卡带主要是机械手

与库体之间的问题,这类加载机的机械手的故障比较多,由于是塑料齿轮,实践中发现,打坏齿轮的现象时有发生

,光电传感器老化、控制电路故障都可能造成卡带,表现形式多数是定位不准卡在库体内,槽位损坏也可造成卡带。

 

三、 磁带库卡带的常见故障;

  

磁带库总类繁多,卡带故障多种多样,对于工作不稳定,不定期的造成此类的故障非常不好排除,机械手是磁带库

核心部件,它由机械的、电子的、光学的等相关部件组成,任何一部分的老化及传感器失灵都可能造成卡带。

    1. 对于IBM 3582 /3583/3584这种类型的磁带库,就这三种磁带库而言,机械手的故障率是不同的,IBM

3582机械手比较简单,故障率比较低,IBM 3583/3584较为复杂,尤其是IBM 3583拆装比较困难,机械手上带光栅

传感器的电机用久了会失灵的,光电传感器稳定性也会变差。

    2. 对于IBM TS3100/3200、HP MSL2024/4048是一个类型的磁带库,机械手卡带的故障主要是机械手的机械故

障和相应传感器失灵造成的。

    3. 对于IBM TS3310、Quantum scalar i500、DELL ML6000系列的磁带库,这类磁带库机械手和机械臂是在一

起的,卡带原因比较复杂,这属于中型磁带库,一般都应用在比较重要的场合,目前应用比较广泛,这种带库机械

手故障率较高,它由机械臂、机械手及扫描枪组成,任何一个环节的失灵都可能造成卡带。

    4. 对于Quantum PX502/510、SUN C4这种类型的磁带库卡带故障现象区别于以上情况,这类磁带库机械手Z轴

是靠皮带带动的,实践中发现,经常有不归位的现象发生,X,Y轴也有不到位的现象,磁带经常卡在机械手与槽位

之间,这种机器装机量不是很大,Z轴拆装起来很困难,这类磁带库卡带故障比较复杂,需要有经验的工程师处理



    5. 对于STK大型磁带库,如STK L180/L700的卡带故障,我们的处理的指导意见是机械手的工作是有寿命的,

要按工作的时间进行更换,保证重要场合的备份可靠性,实践中我们发现,这类磁带库最大的问题是机械手工作不

稳定,有时磁带卡在机械手里不动或加载不可靠,有时一两个星期发生一次,查不出具体原因,我们经过替换法检

测多数是机械手老化造成的,由于机械手上有很多光学的照相机和光学的传感器,这类东西是有寿命和逐渐的老化

的,建议不要等到彻底损坏的时候在更换。

 

问题解决

Dell 的工程师也无法根据错误代码判断是那种情况。最后将机器拆开检查时,发现是一盒磁带突出了部分,导致机械臂被卡住,机械臂无法移动。

参考资料:http://shehui.hc360.com/space.php?uid=7417480&do=blog&id=1119767

 

转载于:https://www.cnblogs.com/kerrycode/p/3680801.html

更多相关:

  • 这一节描述了密集型应用的基本思考方式。 可靠性。意味着系统发生故障,也能保持正常的运行。故障会集中在三个方面,硬件故障(通常是随机和不相关的)、软件故障(通常是系统性的bug,较难发现,较难处理),人为故障(不可避免得时不时出错)。 提供合理的容错技术能够隐藏某一些类型的故障。可扩展性。意味着在负载增加的情况下也有保持性能的策略。...

  • 经常有人在QQ上问我网络方面的一些问题,也经常有一些学生、读者,打电话或发邮件问我一些网络故障的解决方法,但他们只是叙述了故障的结果或现象,很少有人详细描述故障的产生原因、产生过程以及网络的状态,更没有说出现故障之后,自己是怎么分析与判断的,只是告诉我:出了××故障,怎么解决。 在这种情况下,我通常会反问对方一些问题,就和中医看病一样...