阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Linux检查硬件错误工具—mcelog命令

430次阅读
没有评论

共计 3131 个字符,预计需要花费 8 分钟才能阅读完成。

导读 mcelog 是 Linux 系统上用来检查硬件错误,特别是内存和 CPU 错误的工具。未纠正的错误是关键异常,如果 CPU 无法恢复,往往会导致系统上的内核错误。这会导致应用程序重置和中断。对于未纠正的错误,mcelog 捕获错误的能力取决于错误导致热重启还是硬重启。如果是热重启,信息会被 mcelog 捕获,恢复后可看到。硬重启会导致数据丢失,而且 mcelog 可能捕获不到该事件。
安装
[root@RedHat_test ~]# yum install mcelog.x86_64
mcelog 的启动方式

cron : 最老的方式,有确定,定时任务,会丢失一些

daemon : el7 上用这种,守护进程的方式

trigger : 高级一点的方式,触发的时候,看 man mcelog

mcelog 相关文件
/dev/mcelog 设备文件

/var/log/mcelog messages 日志文件

/etc/mcelog/mcelog.conf 配置文件

/var/run/mcelog.pid

默认故障日志只记录在 /var/log/mcelog,并不记录到系统日志中。

如果需要在系统日志中也体现,需修改 /etc/mcelog/mcelog.conf 文件,将前面 #去掉,并保存。

mcelog 后台运行
[root@RedHat_test ~]# mcelog --daemon
查看系统是否异常
1. 手动运行 mcelog 的方式
[root@RedHat_test ~]# mcelog --daemon
查看 mcelog 日志
[root@RedHat_test ~]# tail /var/log/mcelog
# 什么也没有输出,表明正常 
查看 mcelog 守护进程是否检测到错误信息
[root@RedHat_test ~]# mcelog --client
# 什么也没有输出,表明正常 
解析系统异常时的 mcelog 输出
[root@RedHat_test ~]# mcelog --ascii < file.log
# or 或者
[root@RedHat_test ~]# mcelog --ascii --file file.log
测试
1. 修改 tolerate

mce-inject 用于测试 mcelog 能否正确的获取硬件错误信息,并进行正确解码,mce-inject 可以向内核注入指定的错误信息,因此,可以很方便的了解到 mcelog 的功能是否正常。

注意的是,当用户利用 mce-inject 工具向内核注入不可恢复错误(如:fatal)时,会发生死机重新启动等现象,当然,可以通过更改 sys 文件系统下的 tolerate 文件来避免此现象的发生。

[root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0
----------------------------------------------------------------------------------------
位置 : /sys/devices/system/machinecheck/machinecheck*/
说明 : 其中 machinecheck* 中的 * 号由 CPU 的个数所决定的,如果是双核的,则存在 machinecheck0 和 machinecheck1 两个目录,对应目录里都有一个 tolerate 文件,tolerate 中存放容忍程度值。功能 : 向用户提供一个可选择的出现相应硬件错误时的容忍程度(tolerate),比如:当 tolerate 的值为 1 时,出现 fatal 错误时就会死机,重新启动,并且该错误信息并不被记录;当 tolerate 的值为 3 时(注意该值只用于测试),在出现 fatal 错误时,机器会容忍该错误不予响应,不会出现死机重新启动现象,并且会记录相关错误信息。----------------------------------------------------------------------------------------
[root@RedHat_test machinecheck0]# cat tolerant
1
[root@RedHat_test machinecheck0]# echo 3 > tolerant
----------------------------------------------------------------------------------------
数值含义:tolerate 的取值可以为 0、1、2、3。0: always panic on uncorrected errors, log corrected errors
1: panic or SIGBUS on uncorrected errors, log corrected errors
2: SIGBUS or log uncorrected errors (if possible), log corrected errors
3: never panic or SIGBUS, log all errors (for testing only)
2. 安装
[root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils
3. 捏造文件
[root@RedHat_test ~]# cat correct
CPU 1BANK 2
STATUS corrected
RIP 0x12341234
4. 加载 mce-inject 模块
[root@RedHat_test ~]# modprobe mce-inject
5. 在终端执行文件
[root@RedHat_test ~]# mce-inject ./correct
6. 查看 /var/log/mcelog,/var/log/messages
[root@RedHat_test ~]# tail /var/log/mcelog
TIME 1581565856Thu Feb 1311:50:56 2020
MCG status:
MCi status:
Corrected error
Error enabled
MCA: No Error
STATUS 9000000000000000MCGSTATUS 0
MCGCAP 100010a APICID 1SOCKETID 0
MICROCODE 1
CPUID Vendor Intel Family 6Model 63
[root@RedHat_test ~]# cat /var/log/messages
Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1
Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged
同样的方式,在 el7 上设置

tail /var/log/messages 可以看到日志,但是 /var/log/mcelog 文件默认在 el7 上不存在!!原因是默认保存到 /var/log/messages。如果希望保存到 /var/log/mcelog,需要在 mcelog 的 service 文件中,加入参数 --logfile=/var/log/mcelog,然后重启 mcelog

ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计3131字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19351
评论数
4
阅读量
7984934
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
星哥带你玩飞牛 NAS-9:全能网盘搜索工具 13 种云盘一键搞定!

星哥带你玩飞牛 NAS-9:全能网盘搜索工具 13 种云盘一键搞定!

星哥带你玩飞牛 NAS-9:全能网盘搜索工具 13 种云盘一键搞定! 前言 作为 NAS 玩家,你是否总被这些...
【开源神器】微信公众号内容单篇、批量下载软件

【开源神器】微信公众号内容单篇、批量下载软件

【开源神器】微信公众号内容单篇、批量下载软件 大家好,我是星哥,很多人都希望能高效地保存微信公众号的文章,用于...
星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛NAS-11:咪咕视频订阅部署全攻略

星哥带你玩飞牛 NAS-11:咪咕视频订阅部署全攻略 前言 在家庭影音系统里,NAS 不仅是存储中心,更是内容...
多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞...
星哥带你玩飞牛NAS-16:飞牛云NAS换桌面,fndesk图标管理神器上线!

星哥带你玩飞牛NAS-16:飞牛云NAS换桌面,fndesk图标管理神器上线!

  星哥带你玩飞牛 NAS-16:飞牛云 NAS 换桌面,fndesk 图标管理神器上线! 引言 哈...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞...
开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

  开源 MoneyPrinterTurbo 利用 AI 大模型,一键生成高清短视频! 在短视频内容...
仅2MB大小!开源硬件监控工具:Win11 无缝适配,CPU、GPU、网速全维度掌控

仅2MB大小!开源硬件监控工具:Win11 无缝适配,CPU、GPU、网速全维度掌控

还在忍受动辄数百兆的“全家桶”监控软件?后台偷占资源、界面杂乱冗余,想查个 CPU 温度都要层层点选? 今天给...
4盘位、4K输出、J3455、遥控,NAS硬件入门性价比之王

4盘位、4K输出、J3455、遥控,NAS硬件入门性价比之王

  4 盘位、4K 输出、J3455、遥控,NAS 硬件入门性价比之王 开篇 在 NAS 市场中,威...
星哥带你玩飞牛NAS-16:不再错过公众号更新,飞牛NAS搭建RSS

星哥带你玩飞牛NAS-16:不再错过公众号更新,飞牛NAS搭建RSS

  星哥带你玩飞牛 NAS-16:不再错过公众号更新,飞牛 NAS 搭建 RSS 对于经常关注多个微...