서버 두대에서만 해당 내용 발생
현상
1. Desktop 상태 Powertasking, Agent 상태 Ok
2. Desktop 상태 Powertasking, Agent 상태 Checking
3. 두 서버에서 Agent가 Ok는 접속가능하지만 Checking은 Agent가 떨어져 접속 불가능
확인 내용
# openstack server set --state active (instance ID)
>>> vm상태 변경 실패
# openstack server migrate (instance ID) --live 옮길 서버
>>> live migration 실패 / VM 상태 stop
하이퍼바이저 정상 > Horizon 확인
서버 두대 SSH 접속 시 접속 불가
syslog 확인 시 Memory ECC 에러 발생
A 서버 syslog
EDAC MC2: 2CE memory read error on CPU_SrcID#1_MC#0_Chan#0_DIMN#0 (channel : 0 slot:0 OVERFLOW err_code:0101:0090 socket:1 imc:0
MCE records pool full
B 서버 syslog
EDAC MC1: 9CE memory read error on CPU_SrcID#1_MC#1_Chan#0_DIMN#0 (channel : 0 slot:0 OVERFLOW err_code:0101:0090 socket:1 imc:0
장애난 메모리 슬롯 위치 확인 명령어
# grep "[0-9]" /sys/devices/system/edac/mc/mc*/*ce_count
메모리 슬롯의 결과가 0 이면 정상
메모리 인식 확인
dmidecode -t 17 | egrep 'Memory|Size'
(하드웨어 장비 Monitoring 하는 웹에서는 에러 안나옴 // KVM Console 확인 시 에러 확인)
1. 하이퍼바이저 다운
2. 서버 다운
3. 메모리 교체
4. 서버 온
5. 하이퍼바이저 온
6. VM 상태 확인 - error >> vm이 리부팅 걸려있는 상태로 서버가 리부팅 되어 현상 발생
7. VM 상태 변경
# openstack server set --state active (Instance ID)
# openstack server reboot -h (Instance ID) // 하드리부팅 진행