[IN01-01] PDA 주요점검 가이드
수정일 : 2021-04-20 완료
개요
본 글에서는 IBM PureData System for Analytics (이하 PDA) 제품에 대한 기본 점검을 다루고자 한다.
IBM의 DW 장비 중 PDA 제품은 이전에 Netezza라는 제품으로 IBM사에서 Netezza 회사를 인수하면서 PDA라는 명칭으로 변경된 제품이다.
PDA는 Appliance 형태로 제공되는 제품으로 현업 사용자는 별도의 인프라 설계없이 기본설정(Network, Account 등)으로 즉시 사용가능하다.
* Appliance (어플라이언스)
특정 용도로 사용을 위하여 최적화 설계된 완성형 제품이라는 의미이다.
예. 에어컨, 냉장고, 자동차, 커피포트 등등
PDA에서 Netezza Performance Server
IBM에서 PDA 후속모델로 "Netezza Performance Server"라는 제품이 있다.
NPS는 기존의 Appliance 형태의 제품이 아닌 "IBM Cloud Pak for Data (이하 CP4D)"라는 On-premise 방식의 제품에
더하여 판매되는 제품으로 구성 방식이 PDA와는 다른 형태를 가지고 있다.
CP4D 및 NPS에 대해서는 추후 포스팅을 통해 작성할 예정이다.
PDA 점검 단계
PDA는 Host 1,2 ( * Linux OS )와 SPU(S-BLADE), AMM(Advanced Management Module) 등 여러 구성요소가 있으나,
주요 점검 대상은 Host 1,2의 Linux, NPS Service을 대표적으로 볼 수 있다.
- Host OS 점검
- HA(Heartbeat, drbd), Cluster
- System Log
- NPS Service (DBMS) 점검
- On/Offline State
- HW State
- Data Slice State
- SPU Parts State
- Ext.
위와 같은 점검대상이 있다.
PDA는 이미 인프라 구성요소를 대부분 갖추고 있기 떄문에, 단순히 DBMS 점검이 아닌 System의 점검 방식도
필요하다.
PDA - System 점검
Heartbeat
PDA의 NPS Service 이중화를 점검하는 부분이다.
이중화가 정상적으로 사용되기 위하여 Host1,2 모두 Heartbeat Service가 항상 Running 상태이여야 한다.
[root@ ~] # ssh ha1 service heartbeat status
[root@ ~] # ssh ha2 service heartbeat status
DRBD (Distributed Replicated Block Device)
Block Device, 즉 스토리지 이중화를 위하여 사용되는 서비스이다.
이중화 대상끼리 Network Raid-1 Service를 구성하여 상시 Mirroring을 실시하며,
주로 Heartbeat Service와 함께 사용된다.
[root@ha1 ~] # ssh ha1 service drbd status
[root@ha1 ~] # ssh ha2 service drbd status
HA Cluster (HA : High Availability)
PDA의 NPS Service 이중화를 위한 각 프로세스를 클러스터에 등록하여 자동화한 부분이다.
각 영역중 node status, fencing_route_to_ha, resource grop 부분을 중점적으로 확인한다.
만약 resource group가 비정상 상태(failed) 일 경우 NPS Service 불가 또는 페일오버(Failover)가 실패할 수 있으므로,
주의 점검이 필요하다.
[root@ ~] # crm_mon -i1
PDA - NPS Service(DBMS) 점검
NPS On/Offline state
아래와 같은 명령어로 현재 NPS Service의 On/Offline 여부를 확인할 수 있다.
[nz@ ~] $ nzstate
System state is 'Online'.
H/W state
PDA 장비의 하드웨어 이슈사항에 대한 보고서를 표시합니다. 해당 명령어로 PDA에 발생한 이슈사항을 확인할 수 있다.
대표적인 하드웨어 이슈는 Host Disk, Datalisce Disk, PSU, AMM 등이 있다.
위와 같은 하드웨어 이슈사항에 대한 교체방법은 IBM Replacement Guide를 통해 확인할 수 있다.
[nz@ ~] # nzhw -issues
No entries found
Dataslice state
PDA의 데이터 저장상태에 대한 이슈사항을 확인할 수 있다.
예로 Dataslice Disk의 인식 문제 또는 90% 이상 사용률 등이 있다.
자세한 사항은 IBM 공식사이트를 참고
[nz@ ~] # nzds -issues
No entries found
SPU Parts state
본 nzspupart 명령어는 SPU Dataslice에 대한 파티션 정보를 확인할 수 있다. 각 파티션의 디스크 정보 및 사용률, 상태 등을 점검할 수 있다. 이를 통해 파티션 이슈사항을 확인하여 문제 진단할 수 있다.
[nz@ ~] # nzspupart -issues
No entries found
Storage state
PDA에 Dataslice 전체 용량 및 사용률(MIN, AVG, MAX) 등을 확인 할 수 있다.
전체 용량 사용률은 80% 미만을 권장하고 있다. 또한 사용률(MIN, AVG, MAX)가 서로간 차이가 큰 경우 데이터 삭제, 추가 등의 작업 매우 빈번하다는 의미이므로 이는 I/O 성능을 고려하여 데이터 처리 최적화를 고려할 필요가 있다.
[nz@ ~] $ nz_storage_stats
# Of DataSlices 192
Least Full DSlice # 83
Most Full DSlice # 118
Extents Per Dataslice 63,488
Storage Per DataSlice (GiB) 186.000
Storage Used (GiB)
Minimum 0.000
Average 0.004
Maximum 0.732
Storage Used (%)
Minimum 0.000
Average 0.002
Maximum 0.394
Total Storage
Available (TiB) 34.875
Used (TiB) 0.001
Used (%) 0.002
Remaining (TiB) 34.874
Remaining (%) 99.998
Catalog Data state
PDA는 다양한 System Catalog View를 제공하고 있다.
System Catalog View는 사용자, 테이블, 함수, 인덱스 등의 정보를 담고 있으며 해당 영역의 변화에 따라 버전 기록 등을 실시한다.
이에따라 Catalog Size가 증가하는데 해당 크기가 너무 큰 경우 SQL에서 참조할때 성능 저하가 발생할 수 있다.
일반적으로 10 GB 이상일 경우 Vacuum 작업을 통해 정리 작업을 권장한다.
[nz@ ~] $ nz_catalog_size
/nz/data TOTAL directory size: 379M
==========================
Catalogs: 366M
+ CORE files: 0.0M
+ CODE cache: 14M
+ HISTORY data: 0.0M
+ UDX files: 0.0M
위 내용은 본인의 작업내용을 기록하기위한 것으로, 참고용도로만 사용하길 바랍니다.
추가 수정사항이 있을 경우 주기적으로 변경할 예정^^