Post

[AWS-Security] 7.6. 데이터 분류

[AWS-Security] 7.6. 데이터 분류

1. 데이터 분류 (Data Classification)

1.1. 개요

이상적으로는 조직의 모든 데이터에 최고 수준의 보안을 적용하는 것이 좋지만, 비용과 관리 측면에서 이는 불가능에 가깝다. 따라서 어떤 데이터가 더 민감하고 중요한지 식별하여 보안의 우선순위를 정하는 ‘데이터 분류’ 작업이 필수적이다.

대표적으로 높은 수준의 보안이 필요한 민감한 데이터는 아래와 같다.

  • PII (개인 식별 정보) : 이름, 이메일 주소, 주민등록번호(사회보장번호) 등
  • 금융 정보 : 신용카드 번호, 은행 계좌 정보 등
  • PHI (개인 건강 정보) : 의료 기록 등
  • 자격 증명 : API 키, 비밀번호 등

2. 데이터 분류 체계

조직 내에 일관된 보안 표준을 적용하기 위해, 데이터의 민감도에 따라 등급을 나누고 필수 보안 조치를 문서화해 두어야 한다.

  1. 고위험 데이터 (PII, 금융 정보 등)
    • 정의 : 무단 읽기/수정 시 조직에 심각한 위험을 초래하는 데이터
    • 필수 보안 조치 : 저장 및 전송 데이터 암호화(HTTPS), 읽기/쓰기 최소 권한 제한, 접근 로깅 활성화, 잦은 백업 및 버전 관리 필수
  2. 중위험 데이터 (내부 비즈니스 이메일, 보고서 등)
    • 정의 : 무단 접근 시 조직에 위험을 초래할 수 있는 내부 데이터
    • 필수 보안 조치 : 저장 및 전송 데이터 암호화, 읽기/쓰기 최소 권한 제한, 접근 로깅 활성화
  3. 저위험 데이터 (보도 자료 등 이미 공개된 데이터)
    • 정의 : 무단으로 읽혀도 위험이 없는 퍼블릭 데이터
    • 필수 보안 조치 : 쓰기 권한은 반드시 최소 권한으로 제한(무결성 보호), 접근 로깅 활성화

3. Amazon Macie로 민감한 데이터 식별

위와 같이 분류 체계를 만들었더라도, 수천 개의 S3 버킷에 저장된 방대한 파일들을 일일이 열어보며 민감 정보들이 포함되어 있는지 수동으로 확인하는 것은 불가능하다.
특히 PCI(결제 카드 산업)나 HIPAA(건강 보험 관련) 규정을 준수해야 할 때 이는 큰 골칫거리다.
이 때, Amazon Macie가 해결책이 될 수 있다.

  • Macie의 역할 : 머신러닝과 패턴 일치 기법을 사용하여 S3 버킷 내의 민감한 데이터(PII 등)를 자동으로 검색하고 식별해 주는 완전 관리형 보안 서비스이다.
  • 주기적인 스캔을 통해 잘못 구성된 버킷에 민감한 정보가 노출되어 있는지 파악하고 경고를 보내준다.

4. Amazon Macie 민감 데이터 탐지 테스트

  1. 가짜 PII 데이터 파일 생성 및 업로드
    • Mockaroo와 같은 임의 데이터 생성 도구를 사용해 이름, 성, 이메일, IP 주소가 포함된 가짜 CSV 파일을 생성한다.
  2. Amazon Macie 활성화
    • AWS 콘솔에서 Macie 서비스로 이동해 ‘Macie 활성화(Enable Macie)’ 버튼을 클릭한다.
  3. 민감한 데이터 검색 작업(Discovery Job) 생성
    • 스캔할 S3 버킷을 선택하고 빠른 생서(Quick Create)을 통해 데이터 검색 작업을 실행(Submit)한다.
    • 파일이 많으면 시간이 오래 걸릴 수 있으며, Macie 콘솔의 Jobs 탭에서 작업 상태(Active, Complete 등)를 확인할 수 있다.
  4. 결과(Findings) 확인
    • 작업이 완료된 후 Macie 콘솔의 Findings 탭으로 이동한다.
    • Macie가 가짜 CSV 파일에서 개인정보 패턴을 성공적으로 인식했다면, SensitiveData:S3Object/Personal이라는 심각도 High(높음) 유형의 결과가 화면에 표시된다.
    • 이를 통해 보안 담당자는 해당 버킷을 즉시 암호화하거나 접근 권한을 차단하는 등의 후속 조치를 취할 수 있다.
This post is licensed under CC BY 4.0 by the author.