Trouble-6

배병진·2023년 7월 27일
0

Trouble

목록 보기
5/5

서버 두대에서만 해당 내용 발생

현상
1. Desktop 상태 Powertasking, Agent 상태 Ok
2. Desktop 상태 Powertasking, Agent 상태 Checking
3. 두 서버에서 Agent가 Ok는 접속가능하지만 Checking은 Agent가 떨어져 접속 불가능


확인 내용

  1. Controller에서 Vm 상태 확인 시 VM Status가 reboot, hard-reboot이 걸려있음
# openstack server set --state active (instance ID)
>>> vm상태 변경 실패
# openstack server migrate (instance ID) --live 옮길 서버 
>>> live migration 실패 / VM 상태 stop 
  1. 하이퍼바이저 정상 > Horizon 확인

  2. 서버 두대 SSH 접속 시 접속 불가

  3. syslog 확인 시 Memory ECC 에러 발생


A 서버 syslog
EDAC MC2: 2CE memory read error on CPU_SrcID#1_MC#0_Chan#0_DIMN#0 (channel : 0 slot:0 OVERFLOW err_code:0101:0090 socket:1 imc:0
MCE records pool full

B 서버 syslog
EDAC MC1: 9CE memory read error on CPU_SrcID#1_MC#1_Chan#0_DIMN#0 (channel : 0 slot:0 OVERFLOW err_code:0101:0090 socket:1 imc:0

  • 오류 감지 및 수정 (error detection and correction, EDAC)
  • 메모리 컨트롤러(memory controller, MC)
  • 수정 가능한 오류(correctable errors, CE)
  • 듀얼 인라인 메모리 모듈(dual in-line memory module, DIMN)

장애난 메모리 슬롯 위치 확인 명령어

# grep "[0-9]" /sys/devices/system/edac/mc/mc*/*ce_count
메모리 슬롯의 결과가 0 이면 정상

메모리 인식 확인

dmidecode -t 17 | egrep 'Memory|Size'

(하드웨어 장비 Monitoring 하는 웹에서는 에러 안나옴 // KVM Console 확인 시 에러 확인)


  1. H/w 업체에 해당 서버의 샷시 로그 반출과 서버A의 정상 메모리와 서버B 비정상메모리 교체

1. 하이퍼바이저 다운
2. 서버 다운
3. 메모리 교체
4. 서버 온
5. 하이퍼바이저 온
6. VM 상태 확인 - error >> vm이 리부팅 걸려있는 상태로 서버가 리부팅 되어 현상 발생
7. VM 상태 변경 
# openstack server set --state active (Instance ID)
# openstack server reboot -h (Instance ID) // 하드리부팅 진행

  1. 서버 정상 테스트
  • 해당 서버에 정상적으로 VM 생성이 되는가?
  • 해당 서버에서 다른 서버로 마이그레이션이 되는가?
  • 다른 서버에서 해당 서버로 마이그레이션이 되는가?
  • VM으로 정상 접속이 가능한가?

  • MCE 에러 원인
  • 메모리 오류 또는 오류 수정 코드 문제
  • 부적절한 냉각/프로세서 과열
profile
history and study

0개의 댓글