HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障

接到电话,告知公司负责的某维保客户数据库出现了故障

客户反馈,应用端出现了磁盘读写错误:
HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障
同时,登录数据库时也出现了错误:
HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障

同时,用户反馈说部分业务已经中断
登录操作系统, 通过查询gv$instance视图,得知是一个双节点的11gR2的集群
检查节点1的数据库告警日志,ASM告警日志,CRSD日志,未发现近期可疑错误信息
登录节点2,发现数据库服务的/oracle目录的空间占用已达到100%。检查磁盘文件空间占用发现, 监听的产生的listener.log, XML文件占用了大量空间,遂清理之

从报错日志来看,磁盘写入出现了问题,怀疑数据文件有物理坏块。但是用dbv userid/password file='+DATA/数据库名/datafile/system.345' 并未检查出有坏块

清理出oracle软件安装目录之后,用户反映业务已经恢复正常。 但是对于这个错误还是有点不解,为什么磁盘空间的问题会导致数据文件写入的错误。

继续检查:
ASM的告警日志中出现了如下的信息:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1

Writing to the above trace file is disabled for now on...

阆中ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:028-86922220(备注:SSL证书合作)期待与您的合作!

Non critical error ORA-48113 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_14098.trc"

Error message: 
Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance

这里已经出现了ASM连接中断的信息。
难怪会出现磁盘读写错误

清理掉日志文件之后,告警日志里也没有新的信息写入
检查集群组件状态:

 $ /oracle/grid/bin/crsctl check crs

CRS-4638: Oracle High Availability Services is online

CRS-4535: Cannot communicate with Cluster Ready Services

CRS-4529: Cluster Synchronization Services is online

CRS-4533: Event Manager is online


CRS服务已经出现了问题
总结:

应可以推断出,/oracle目录磁盘空间占满,导致了数据库实例通过ASM读写数据文件时,登录ASM出现了错误。 此时就出现了前文中所示的写入system表空间的错误

这里还有一个比较关键的提示:
 ORA-29701: unable to connect to Cluster Sychironization Service
    这里已经是集群层面的进程出现问题了。与数据文件本身并无联系(清理空间后业务也恢复了正常)


同时给了客户建议:

改善建议:

1.  建议部署crontab脚本,定期清理/oracle目录下的监听日志以及日志相关的xml文件

2.  CRS集群本身已经出现了问题,且经过很久之后也未恢复,建议重启CRS集群服务
通过
   /oracle/grid/bin/crsctl stop crs
   /oracle/grid/bin/crsctl start crs




名称栏目:HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障
当前路径:http://scyanting.com/article/piijjj.html