下载丨7月数据库技术通讯:LINUXOS配置问题导致数据库重启

  • 最新
  • 精选
  • 区块链
  • 汽车
  • 创意科技
  • 媒体达人
  • 电影音乐
  • 娱乐休闲
  • 生活旅行
  • 学习工具
  • 历史读书
  • 金融理财
  • 美食菜谱

下载丨7月数据库技术通讯:LINUX OS配置问题导致数据库重启

数据和云 Oracle 2020-07-24

为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了《云和恩墨技术通讯》,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考。同时,我们也希望能够将热点事件、新的产品特性及其他有价值的信息聚集起来,为您提供具有前瞻性的支持信息,保持对于当前最新的数据库新闻和事件的了解,其中包括重要数据库产品发布、警报、更新、新版本、补丁等。

墨天轮文档:《云和恩墨技术通讯(7月刊)》:https://www.modb.pro/doc/4875(复制到浏览器中打开或者点击文末左下角“阅读原文”立即下载)


以下截取部分页面:


以下选取一个经验篇:


ORACLE RAC经常会因为节点间通信或者数据库负载异常,从而导致数据库节点发生异常重启,影响生产环境部分业务,该篇文章就详细描述了数据库节点重启的分析过程。


问题描述


某客户数据库Oracle  RAC 环境中节点出现重启现象,几分钟后集群自动恢复,影响部分业务,分析思路如下:


问题分析


CRS日志分析,数据库无法启动,数据库监听状态异常:

2020-06-15 05:32:29.990:[/oraapp/11.2.0/grid/bin/oraagent.bin(17438)]CRS-5011:Check of resource "testrac" failed: details at "(:CLSN00007:)" in "/oraapp/11.2.0/grid/log/testrac1/agent/crsd/oraagent_oracle/oraagent_oracle.log"2020-06-15 05:32:49.078:[cssd(8806)]CRS-1662:Member kill requested by node testrac2 for member number 0, group DBtestrac2020-06-15 05:33:19.742:[cssd(8806)]CRS-1608:This node was evicted by node 2, testrac2; details at (:CSSNM00005:) in /oraapp/11.2.0/grid/log/testrac1/cssd/ocssd.log.2020-06-15 05:33:19.742:[cssd(8806)]CRS-1656:The CSS daemon is terminating due to a fatal error; Details at (:CSSSC00012:) in /oraapp/11.2.0/grid/log/testrac1/cssd/ocssd.log2020-06-15 05:33:19.742:[cssd(8806)]CRS-1652:Starting clean up of CRSD resources.2020-06-15 05:33:19.835:[cssd(8806)]CRS-1608:This node was evicted by node 2, testrac2; details at (:CSSNM00005:) in /oraapp/11.2.0/grid/log/testrac1/cssd/ocssd.log.2020-06-15 05:33:19.835:[cssd(8806)]CRS-1604:CSSD voting file is offline: /dev/raw/raw1; details at (:CSSNM00058:) in /oraapp/11.2.0/grid/log/testrac1/cssd/ocssd.log.2020-06-15 05:33:19.835:[cssd(8806)]CRS-1604:CSSD voting file is offline: /dev/raw/raw3; details at (:CSSNM00058:) in /oraapp/11.2.0/grid/log/testrac1/cssd/ocssd.log.2020-06-15 05:33:19.835:[cssd(8806)]CRS-1604:CSSD voting file is offline: /dev/raw/raw4; details at (:CSSNM00058:) in /oraapp/11.2.0/grid/log/testrac1/cssd/ocssd.log.2020-06-15 05:33:21.184:[/oraapp/11.2.0/grid/bin/oraagent.bin(14932)]CRS-5016:Process "/oraapp/11.2.0/grid/opmn/bin/onsctli" spawned by agent "/oraapp/11.2.0/grid/bin/oraagent.bin" for action "check" failed: details at "(:CLSN00010:)" in "/oraapp/11.2.0/grid/log/testrac1/agent/crsd/oraagent_grid//oraagent_grid.log"2020-06-15 05:33:21.787:[/oraapp/11.2.0/grid/bin/oraagent.bin(14932)]CRS-5016:Process "/oraapp/11.2.0/grid/bin/lsnrctl" spawned by agent "/oraapp/11.2.0/grid/bin/oraagent.bin" for action "check" failed: details at "(:CLSN00010:)" in "/oraapp/11.2.0/grid/log/testrac1/agent/crsd/oraagent_grid//oraagent_grid.log"2020-06-15 05:33:21.789:[/oraapp/11.2.0/grid/bin/oraagent.bin(14932)]CRS-5016:Process "/oraapp/11.2.0/grid/bin/lsnrctl" spawned by agent "/oraapp/11.2.0/grid/bin/oraagent.bin" for action "check" failed: details at "(:CLSN00010:)" in "/oraapp/11.2.0/grid/log/testrac1/agent/crsd/oraagent_grid//oraagent_grid.log"2020-06-15 05:33:22.052:[cssd(8806)]CRS-1654:Clean up of CRSD resources finished successfully.2020-06-15 05:33:22.053:[cssd(8806)]CRS-1655:CSSD on node testrac1 detected a problem and started to shutdown.

发现数据库的asm实例也出现异常。


分析gipc日志:

2020-06-15 05:39:45.691: [GIPCDMON][1163826944] gipcdMonitorCssCheck: found node testrac22020-06-15 05:39:45.691: [GIPCDMON][1163826944] gipcdMonitorCssCheck: updating timeout node testrac22020-06-15 05:39:45.691: [GIPCDMON][1163826944] gipcdMonitorCssCheck: updating timeout node testrac22020-06-15 05:39:45.691: [GIPCDMON][1163826944] gipcdMonitorFailZombieNodes: skipping live node 'testrac2', time 0 ms, endp 0000000000000000, 00000000000008b92020-06-15 05:39:45.691: [GIPCDMON][1163826944] gipcdMonitorFailZombieNodes: skipping live node 'testrac2', time 0 ms, endp 0000000000000000, 0000000000000a092020-06-15 05:39:46.443: [GIPCDCLT][1168029440] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 00000000000003d52020-06-15 05:39:48.948: [ CLSINET][1163826944] Returning NETDATA: 1 interfaces2020-06-15 05:39:48.948: [ CLSINET][1163826944] # 0 Interface 'bond1',ip='172.1.2.108',mac='90-e2-ba-eb-98-4c',mask='255.255.255.0',net='172.1.2.0',use='cluster_interconnect'2020-06-15 05:39:48.998: [GIPCDMON][1163826944] gipcdMonitorSaveInfMetrics: inf[ 0] bond1 - rank 99, avgms 0.346535 [ 160 / 206 / 202 ]2020-06-15 05:39:48.998: [GIPCDMON][1163826944] gipcdMonitorSaveInfMetrics: saving: bond1:992020-06-15 05:39:49.432: [GIPCDCLT][1168029440] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 00000000000004722020-06-15 05:39:50.452: [GIPCDCLT][1168029440] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 00000000000001212020-06-15 05:39:50.690: [GIPCDCLT][1168029440] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 000000000000032f


集群的心跳一直处于正常状态。
asm agent日志:

2020-06-15 05:31:44.452: [ora.asm][1207957248]{0:0:2} [check] ConnectionPool::removeConnection connection count 02020-06-15 05:31:44.452: [ora.asm][1207957248]{0:0:2} [check] ConnectionPool::removeConnection freed 02020-06-15 05:31:44.452: [ora.asm][1207957248]{0:0:2} [check] ConnectionPool::stopConnection sid +ASM1 status 12020-06-15 05:31:44.452: [ora.asm][1207957248]{0:0:2} [check] InstAgent::check 1 prev clsagfw_res_status 3 current clsagfw_res_status 52020-06-15 05:31:44.453: [ AGFW][1205856000]{0:0:2} ora.asm 1 1 state changed from: UNKNOWN to: FAILED

asm的资源已经offline。


查看数据库ash发现,故障前一段时间,数据库在做备份的动作:





磁盘有大量的写入操作,并且有大量的换入换出动作。



ASH里会话都被sid 3046阻塞,3046会话是ckpt进程。



从分析ckpt进程的trace得出:


告警数据库的IO负载异常高,并且出现log file parallel write写的等待。说明当时IO出现了异常。两个节点之间也出现通讯异常。enq: TC – contention,执行ALTER TABLESPACE … BEGIN BACKUP后,将属于此表空间的所有高速缓冲区的脏块记录到磁盘上,这个过程经历enq: TC - contention等待。


OS日志:


Message里出现告警:
17573 blocked for more than 120 seconds. “echo 0 > /proc/sys/kernel/hung_task_timeout_secs” disables this message.


改现象与官方mos文档:(Doc ID 1423693.1)现象一致。


问题解决


1、建议调整rman备份的策略,比如修改并发度。
2、修改内核参数
参考语句:
vm.min_free_kbytes = 262144
vm.swappiness=100
3、设置大页
使用hugepage功能时候需要禁用11g新特性 Auto Memory Management (AMM)
memory_target = 0
memory_max_target=0


墨天轮文档:《云和恩墨技术通讯(7月刊)》:https://www.modb.pro/doc/4875(复制到浏览器中打开或者点击文末左下角“阅读原文”立即下载)


推荐阅读:144页!分享珍藏已久的数据库技术年刊



视频号,新的分享时代,关注我们,看看有什么新发现?




数据和云

ID:OraNews

如有收获,请划至底部,点击“在看”,谢谢!


点击下图查看更多 ↓

云和恩墨大讲堂 | 一个分享交流的地方

长按,识别二维码,加入万人交流社群


请备注:云和恩墨大讲堂

  点个“在看”
你的喜欢会被看到❤

    阅读原文

    前往看一看

    看一看入口已关闭

    在“设置”-“通用”-“发现页管理”打开“看一看”入口

    我知道了

    已发送

    发送到看一看

    发送中

    微信扫一扫
    使用小程序

    取消 允许

    取消 允许

    微信版本过低

    当前微信版本不支持该功能,请升级至最新版本。

    我知道了 前往更新

    确定删除回复吗?

    取消 删除

      知道了

      长按识别前往小程序

      本站仅按申请收录文章,版权归原作者所有
      如若侵权,请联系本站删除

      微信QQ空间新浪微博腾讯微博人人Twitter豆瓣百度贴吧

      觉得不错,分享给更多人看到

      Oracle 热门文章:

      关于炉石传说的Oracle数据库故障不要以为你也可以幸免    阅读/点赞 : 20803/58

      MySQL DBA技术难度低为什么工资比Oracle高?    阅读/点赞 : 6432/42

      知己知彼-关于Oracle安全比特币勒索问题揭秘和防范    阅读/点赞 : 6165/42

      一代枭雄 - 硅谷首富 Larry Ellison 的彪悍人生    阅读/点赞 : 5931/37

      Oracle最重要的九大性能视图    阅读/点赞 : 5156/47

      这是你的国庆大礼包,请签收~    阅读/点赞 : 3131/112

      2017 好书好礼赠送开门红    阅读/点赞 : 2616/83

      【2015最佳运维图书评选】结果揭晓    阅读/点赞 : 1634/49

      Bethune新上线功能:正式进入共享/协同的主流工作模式    阅读/点赞 : 1468/84

      ​国庆七天乐,天天有礼    阅读/点赞 : 1117/29

      Oracle 微信二维码

      Oracle 微信二维码

      Oracle 最新文章

      下载丨7月数据库技术通讯:LINUX OS配置问题导致数据库重启  2020-07-24

      直播预告丨技术干货:易鲸捷HTAP融合型分布式数据库连接服务层介绍  2020-07-24

      叮咚!7.24运维节,您有一份礼物待查收!  2020-07-24

      资源放送丨《容灾体系建设之“独孤九式”》PPT&视频  2020-07-24

      Oracle 19.6 的有趣BUG:可能引发 CLOB 存储数据的丢失  2020-07-23

      大咖直播 | 7月26日20点 ,我们请中信银行技术大咖聊聊GoldenDB的研发与应用实践  2020-07-23

      请收下这10篇2020上半年最受欢迎的数据库技术文章  2020-07-22

      今晚直播 | PostgreSQL基于非易失性内存优化探索  2020-07-22

      资源放送丨《Oracle聚簇因子的作用 - 2020云和恩墨大讲堂》PPT&视频  2020-07-22

      五大国产厂商中标中国移动自主可控OLTP数据库,你怎么看?  2020-07-21

      (adsbygoogle = window.adsbygoogle || []).push({});

      (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); (function(){ var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?ba34c9f41d18b62312e960833b3cb4ae":"https://jspassport.ssl.qhimg.com/11.0.1.js?ba34c9f41d18b62312e960833b3cb4ae"; document.write(''); })();

       
      ®关于本站文章™ | 若非注明原创,默认 均为网友分享文章,如有侵权,请联系我们™
      ㊣ 本文永久链接: 下载丨7月数据库技术通讯:LINUXOS配置问题导致数据库重启