[과제] 인프라 엔지니어의 교과서 9장

강세준·2023년 2월 13일
0

장애 대응

  • 핫스왑 : 서비스를 가동한 채로 이중화된 부품 중 고장난 부품을 교환하는 것
  • ECC 기능 : 기술이나 이상을 감지하면 자동으로 보정하는 기능
  • 버그에 의한 사소한 오류는 사용자로부터의문의나 감시 시스템에 의해 오류를 발견하는 예가
    대부분 이므로 감시 솔루션을 통해 온갖 장애 패턴을 감지할 수 있도록 엄격히 설정해야한다.

병목을 해결한다

  • 병목이 한 군데만 있어도 시스템 전체의 응답에 악영향을 미치기 때문에 이를 제거해야한다.
    병목을 제거할때는 국소적인 문제에 사로잡히지 않고 시스템 전체의 관점에서 병목을 검토해야 한다.
  • 접속이 급증하는 IT 시스템일 경우 단계적으로 실행할 시스템 확장 계획과 지속적인 병목 해소 작업이 필요하다.
  • 시스템에서 병목이 일어나기 쉬운 부분
    • 코어 스위치의 수용량
    • L2 스위치의 수용량
    • 웹 서버의 메모리 부족
    • 데이터베이스 서버의 CPU와 메모리 부족
    • 데이터베이스 서버의 디스크 I/O3
  • 네트워크 장비의 병목 해결
    • 각 포트의 물리 인터페이스의 속도가 트래픽을 감당하는가?
      • 만약 1Gbps 인터페이스 일때 실제 IN/OUT 트래픽이 이를 넘어서면 트래픽을 분산하거나
        인터페이스가 더 빠른것으로 바꾼다.(ex : 1Gbps -> 10Gbps)
    • 네트워크 장비의 전송 능력에 한계는 없는가?
      • 패킷 드롭 or 전송 능력 부족을 보이는 로그가 확인되면 네트워크 장비를 상위 기종으로 교체
        또는 캐시 메모리 추가등을 시행한다.
  • 서버 장비의 병목을 해결한다
    • 프론트 엔드 서버의 응답이 저하되었는가?
      • 서버의 응답 시간을 정기적으로 가져와 극단적 저하를 확인하거나 사용자로부터
        응답 속도에 관한 질문이 들어왔는지 확인하고 이같은 문제가 발생하였을 경우
        프론트 엔드 서버 문제인지 데이터베이스 or 백엔드 서버 문제인지 파악한다.
        각 서버의 CPU, 메모리, 네트워크, 디스크I/O의 실시간 이용 상황을 보고
        어느 하드웨어 자원이 과도하게 사용되면 해당 서버 문제로 의심하여 처리한다.

      • 하드웨어 리소스를 많이 사용하는 서버를 파악하면 원인을 분석하고 하드웨어 리소스가
        부족하면 다음과 같이 처리한다.
        CPU : CPU의 소켓 수 or 코어 수를 늘리고 이를 할 수 없을 때는 속도가 빠른 CPU로
        교체 하거나 상위 기종의 서버로 교체 또는 서버를 늘린다
        메모리 : 메모리 설치 용량을 늘린다
        네트워크 : 복수의 네트워크 인터페이스를 묶어 대역을 늘려준다. 단 한계까지 사용하는 서버는
        서버 수를 늘려 부하를 분산하는 편이 좋다
        디스크 I/O : 더 빠른 스토리지 도입 or SSD나 플래시 메모리 같은 고속 디스크로 교체한다.
        단 디스크 I/O가 크다고 병목을 단정 짓지 않고 하드웨어 고장 가능성도 의심해봐야 한다.

MSP

IT 인프라 운영 관리를 대행해주는 업자

  • MSP 업자 선택 방법
    • 기업의 신뢰성 : 가격뿐만 아닌 MSP 업자의 컴플라이언스 측면이나 재무 상황도 확인한다.
    • 커뮤니케이션 능력 : MSP 업자의 엔지니어와 커뮤니케이션이 원할하지 않으면 불안할 수 있기
      때문에 MSP 업자의 기술 담당자와 한 번 이야기해본다.
    • 유연성 : 요구 사항을 전달하고 유연하게 제안해 주는지 확인한다.
    • 기술력 : IT기술을 전문적으로 다루기 때문에 기술력이 부족하면 위험하다.
    • 비용 대비 효과 : 비교 견적을 받고 각 업자의 가격차가 어디에서 나는지 확인한다.
  • MSP 업자 이용 비용
    365일 24시간 관리해야 하기 때문에 운용에도 상당히 많은 비용이 든다.
    따라서 사원을 비용을 직접 부담할 것인지 MSP 업자에게 외주 비용으로 주고 말지 잘 결정해야 한다.

펌웨어

펌웨어란 하드웨어를 제어하는 프로그램을 의미하고 펌웨어 품질이 부품의 품질과 같이
하드웨어의 성능이나 안정성을 크게 좌우한다.

  • 서버 본체(BIOS), RAID 보드/HBA 보드, SSD, 네트워크 기기 본체, 스토리지 본체 등

  • 펌웨어의 버전과 수준
    구매시 제조 시점 가장 최신의 펌웨어 버전이 적용되며 새 펌웨어는 권장, 필요, 필수라는 수준도 병기되어 해당 수준을 참고하여 적절할 때에 버전 업그레이드가 필요하다.
  • 펌웨어의 버전 업그레이드 여부 판단
    최신 버전이 버그 수정이 되어 있어서 안전하다는 엔지니어와 최신 펌웨어에 새로운 버그가 있어 위험하다는 엔지니어 둘 다 일리가 있지만 필수 수준의 펌웨어는 반드시 적용해야 하고 필요 수준은 내용을 잘 보고 적절히 판단하여 운영하는 방식이 현실적이다.
  • 펌웨어 버전 업그레이드 방법
    • 가동 중인 운영체제에서 업데이트 파일 실행해서 적용하는 방법(재부팅 X)
    • 가동 중인 운영체제에서 업데이트 파일 실행해서 적용하는 방법(재부팅 O)
    • 시스템 정지 후, USB 메모리 or DVD-ROM 등을 사용해 적용하는 방법
      재부팅을 하지않는 방법이라면 적용하기 쉽지만 보통은 시스템 재부팅이 필요하므로
      정기 점검 등의 시간에 효율적으로 실행해야 한다.
  • 최신 펌웨어 정보 수집
    최신 펌웨어는 일반적으로 각 업체 홈페이지에 올라와 있지만 특정 업체는 유지 관리 계약을 맺지 않으면 정보를 구할 수 없을 때도 있으므로 업체에 확인해봐야 한다.
  • 펌웨어 버그
    대규모 사이트에서는 하드웨어 업체의 테스트 환경과 차원이 다른 액세스 양을 처리해
    테스트 환경에는 드러나지 않던 오류가 종종 발생한다. 특히 하드웨어 수용량이 한계에 가까이 가면
    펌웨어 버그가 드러나는 경우가 많다.

하드웨어 사후 지원

하드웨어 구매시 지원 기간은 중요한 선정 포인트로 보증 기한 중에 하드웨어가 고장나면 무상으로 수리를 해준다. 지원 기간은 5년까지 지원 연장을 해주지만 통계적으로 5년을 넘어서면 하드웨어 고장률이 크게 올라가므로 지원 기한 종료가 다가오면 대책을 마련해야한다.

profile
데이터를 탐구하는 개발자

0개의 댓글