작은 메모장

32. 인공지능과 데이터 본문

실더스 루키즈 교육

32. 인공지능과 데이터

으앙내눈 2024. 2. 5. 17:41

인공지능 : 사람과 같은, 사람을 닮은, 사람과 구분이 불가능한 인위적인 지능

- 머신러닝 : 사람이 정한 알고리즘, 사람이 넣어주는 데이터를 사람이 목적하는 목표달성을 위해서 구동하는 기계지능

- 딥러닝 : 인공신경망(뇌)이 도입된 자가 전파, 자가 학습이 가능한 머신러닝

 

- 생성형 인공지능 : 사람과 주고 받으면서 강화 학습

- 일반 인공지능 : 스스로 뭔가 판단하고 사고하며 강화 학습

 

 

클라우드 보안 컨설팅을 하게 되었을 때, 고객의 환경은?

- 인공지능 도입

- 인공지능 데이터 처리 시스템 설계

- 인공지능 도입되었다고 하는 솔루션/시스템 사용

- 인공지능 도입하고자 하는 클라우드 사용 환경

 

 

데이터 전처리 : 데이터 사용 전 유용한 정보만을 선택 및 가공을 통해 사용에 용이하게 만드는 과정 -> 관련 법규 ~ 개인정보 보호를 위한 처리

 

데이터의 종류

- 정형 : 문서, 엑셀, 파일 (형식, 파싱 최소화, 메타 데이터)

- 비정형 : 음성, 영상, 도면, GPS, 앱 사용정보 (형식X, 파싱, 메타데이터 생성)

- 반정형 : HTML, JSON, 로그 (형식 최소한, 파싱, 메타데이터 생성)

 

 

CSAP / CSP

- 보증 : 제3의 공인된 신뢰기관 (한국인터넷진흥원) + 명세된 명세서 - 수학의 공식, 풀이 및 답을 전부 입증

- 인증 : 인증서를 통해서 신뢰를 입증, 수학에 대한 결과 입증 (답)

 

1) 과학기술정보통신부

- 한국인터넷진흥원 : 민간 인증, 제도, 가이드라인, 안내서, 해설서, 인증심사원 양성, 교육, 훈련

2) 국가정보원 : 암호, 알고리즘, 산업보안, 핵심기밀, 국가적인 이슈

 

** 클라우드 보안 : 핵심 구성요소 보안(국정원) + 제도 방침(한국인터넷진흥원) = CSAP


빅테크 CSAP 인증 기사 내용

1. CSAP 상 중 하 등급 / 왜 상중하 등급을 두었는가?

- 데이터 중요도(비즈니스 특성, 상대적)

- 데이터 분류 기준 없음 : 기업별로 자체적으로 등급

- 국내 산업 발전 촉진, 건전한 경쟁 환경 조성

- 분산 데이터베이스 환경, 국외이전 우려사항 : 개인정보보호 목적

- 하등급 : 해외 클라우드 업체 예외적으로 허용

 

2. 논리적 망분리 요건 <=VS=> 물리적 망분리 요건 / 망분리 전체 요구사항

- 망분리: 대한민국(네트워크 망분리 기반의 인프라 매우 높음)

- 클라우드 보안 기획, 설계, 구축 망 분리 요건을 준수하는 환경(필수)

- 논리적 망분리 : 가상화, Openstack, OpenShift 활용

- 물리적 망분리 : 2PC, 가상화(CBC, SBC)

- 망분리 vs 망분리 대체 정보보호

* 컨설턴트 : 추상적인 가이드라인, 추상적인 내용 -> 구체화, 솔루션/시스템 도입 계획 구성, 제안

* 담당자 : 추상적인 가이드라인 검토, 해석 제안 내용 검증, 의사결정(판단), 예산 책정/도입, 적정성

 

3. CC 검증 : 국내 CC 인증 <=VS=> 국외 CC 인증 (CCRA) / 한국이 국제 보안평가상호인정협정(CCRA) 회원국 / 국가정보원 / CC 대체 및 보완 제도?

- 클라우드 보안 인증(CSAP) vs CC : 이분화

- 법적 차이점, 상대성 : 해석

- KCMVP

 

4. 한국에서 개발한 암호화 알고리즘인 '아리아(ARIA)'와 '시드(SEED)' <=VS=> 국제 표준 암호화 알고리즘인 'AES(Advanced Encryption Standard)'

- 대칭키, 공개(비대칭키), 블록암호화, 해시 암호화(일방향 암호)

- 암호 이용 활성화

- 암호

* 저장 시 암호화 : ARIA, SEED, AES, DES(128, 256, 512)

* 전송 시 암호화 : SSL 1,2,3 X / TLS 1.1 X(HTTPS, VPN) 1.2 이상 필수(1.3 권고)

* 비밀번호 암호화 : 일방향(HASH) SHA 2 (224 256 384 512) 이상


*영상 : 데이터 눈알 붙이기

 

데이터의 수집 및 전송

- 공공 데이터 포털 : 메타 데이터

- 마이 데이터 포털 : API

 

인정 연동을 위한 표준 규격

- SAML 2.0

- O-Auth 2.0 : SNS 인증 연동

- OIDC

* AD, LDAP

 

인증 규격

- 쿠키

- 세션

- 토큰 : JSON Web Token (JWT) 인증

 

SSO(통합 인증 설계)

- 하이브리드 멀티 클라우드 보안

- 간편 인증 : 블록체인 인증(DID), 생체 인증, 브라우저 인증, 간편계좌 인증, 전자 지갑 인증...

 

오픈소스의 순기능

- 범용성

- 무료

 

오픈소스의 역기능

- 검증되지 않음 : 악성코드, 취약점 노출, 버그, GPT(생성형 답변) (검증하고 써야만 한다.)

- 오픈소스 : 빅코드(전체 최적화가 되지 않음, 독립적인 코드만 증가) - GPT 촉진

- 지적 재산권 침해

 

클라우드 사용자

클라우드 기획? 검토?

클라우드 새로운 구축?

** 클라우드 전환? (기존 레거시 -> 클라우드 도입)

클라우드 - 클라우드 이사

클라우드 - 온프레미스 회귀

 

클라우드 컨설턴트(전환 설계 컨설팅)

- 어떤 자산이 얼마나 있는가?

- 자산 중요도, 우선순위 분석

- 클라우드를 사용하는게 유리? vs 사용하지 않는게 유리?

- 클라우드로 전환함에 있어 고려해야할 요소?

- 클라우드로 전환함에 있어 확인해야할 법적/제도/인증 요건?

- 클라우드로 전환함에 있어 고려해야할 보안 준수 사항?

 

DR(복구)


1. 개인정보보호 위원회 중요한 카운터 파트

2. 가명정보(<-> 익명정보) : 통계작성, 공익적 기록보존, 과학적 연구

- 산업(비영리) / 상업(영리)

- 공익적 : 공공기관에 해당

- (구체적인) 과학적 : 추상적, 포괄 (주제영역에 구체성)

 

전자 서명법

IE 의존성

방치되는 Active X(악성코드 유포 통로)

장애, 에러, 설치 - 클라이언트 환경 비효율

은행 인증 - PC 기반 결제(이용자 보안)

- 공인인증서 보안 -> 대체 인증 (법적 개정 필요)

- 가상 키패드 보안

- 온라인 악성코드 백신

 

한국의 클라우드 보안(업권)

- 공공 : 망분리 준수 (전자정부)

- 민간 : 망분리 준수, 전자정보통신법(개인정보보호법)

- 금융 : 망분리 준수, 전자금융거래, 전자서명, 전자인증 (금융실명제, 한국은행/금융위원회)

- 국방 : 망분리 준수, 사이버사령부/국방부

- 글로벌 : 망분리 준수, 국내 + 글로벌(인증)

 

클라우드 : 대표적인 위수탁 서비스

- 제3자 정보 제공 : A -> B 정보 제공 (의무 X)

- 위탁/수탁 : A(위탁/관리감독 + 평가/검증) -> AWS(수탁/협조 + 서류제출 + 현장조사) CSP

 

샌드박스

- 악성코드 분석 : 가상환경 + 악성코드 샘플 -> 실행증적(실행결과) 미뤄봐서 동적 분석

- 법률 용어 : 사법 체계 법령 개정 현황 <-> 실제 현장에서 발생하는 현황 (비교 분석해서, 개정의 효율 높이고자 gap 분석)

 

온라인 공격이 집중

- 돈이 모이는 곳들

- 사람이 모이는 곳들

- 데이터가 모이는 곳들

- 약점(취약점)이 모이는 곳들

 

가용성 / DR(복구) : 인프라 지식, 복구 전략

 


BCP (업무 연속성 계획) & DRP (재해 재난 복구 계획)

- SLA : 서비스 수준 협약

게약서, 계약서 붙임(법적 구속력)

장애, 피해보상, 구제, 구상권

 

- Availabilities : 가용성(협약)

장애 정도

 

- RTO & RPO : 복구 시간, 복구 포인트 (자산, 시간)

우선순위, 중요도

 

- 백업, 백업 준수율

풀, 차분, 증분

백업 스케쥴(일, 격일, 주간, 매월, 분기, 반기, 년간)

 

- Hot, Warn, Cold, 미러링 : 사이트

현장, 사무실

준비도(많이 : 속도 빠름, 돈 많이 듬 / 적게 : 속도 느림, 돈 적게 듬)

클라우드 스냅샷, 이미지, 컨테이너(DR 가상화)

 

- RAID, 패러티

값 싼 장비를 묶어서 비싼 장비 성능을 내기 위한 클러스터링 기술

스케일링 기술 + 패러티(무결성 입증)

 

- 물리적 보안 : CSP 평가, 검증

 

랩서스 해킹

- 크리덴셜 스터핑

- 다크웹

- VPN 취약점 (원격)

- 망분리 내부(업무) 시스템 (많은 연결)

- 레터럴 무브먼트 (횡이동, 측면이동) 보안 수단 부재

- 데이터 저장소 (집중)

 

제로 트러스트(해답)


 

워터폴, 모놀로틱, 애자일, 컨테이너, MSA, 클라우드 네이티브, 쿠버네티스, CICA, SaaS

 

1) 국가주도적 사업

- 전국민 AI

- K-클라우드

- (가상화 기반) 디지털 플랫폼 정부

 

2) 공공기관 클라우드 전환 사업 (~2030)

- 일반 : 기존(레거시) -> 리프트 앤 시프트 -> 이사가듯 옮겨가는 방식 (1차, 2025년)

- MSA(네이티브) : 클라우드 환경에 맞게 리모델링, 신규 구축 (2차, 2030년)

 

모놀로틱 : 안정적, 통일성, 일관성 (장점) -> MSA : 변화 빠름, 확장성, 유연성 (생존)

자체 개발, 온프레미스, 레거시 -> 클라우드, 서버리스, 코로케이션, 컨테이너, 확장성/유연성

 

기능 단위 조직 : 사일로(전문화된 기능 숙련 조직), 데이터 공유 X - 중앙 집권

사업 단위 조직 : 사일로 X, 의사결정 빠르게 하기 위해 조직 구조 - 분산 자치(클라우드 - 분산 컴퓨팅)

 

일관성 -> 관리 누락(MSA) 단점 관리 포인트 증가 -> 쿠버네티스 (관리 자동화, 중앙 집중화)

 

가상화 vs 컨테이너

가상화 보안 : 프라이빗 클라우드 (가상화) 보안 검토, CSAP '가상화 보안' 영역 검토, 상용 가상화 솔루션 가상화 보안

컨테이너 보안 : 컨테이너 서비스 보안 강화, 컨테이너 기반의 코로케이션 서비스 이용, 컨테이너 기반의 VM (퍼블릭 클라우드), 도커 기반의 서비스

 

퍼블릭 vs 프라이빗

 

퍼블릭(sk 실더스) vs 주정통(프라이빗) vs 도커(컨테이너)

 

인프라의 구분 (하이브리드 멀티 클라우드)

- 온프레미스 : 직접 서버의 모든 것을 구축(규모 산정)

- 호스팅(웹) : 다중임차, 서버자체(호스팅), 서비스(사용자)

- 호스팅(서버) : 단독임차, 서버자체(호스팅), 서비스(사용자)

- 코로케이션 : 공간임차, 렉/상면/공간(코로케이션), 서버/서비스(사용자) - 카카오

- 컨테이너 : 다중/단독 임차, 서비스(사용자)

- IDC(직접 입주) : 층/공간 + 오퍼레이션(사람) 상주 + 시설/설비/전기/재난(사업자)

- CDC(Cloud) : 클라우드 사업자 + 웹 서비스(사용자)

- 서버리스 : 웹(클라우드) SaaS 서버리스 코드 호출 단위당 과금하는 서비스

- 클라우드 : CDC 동일

- 엣지 클라우드 : 온 디바이스 환경에서 클라우드 정보처리를 대행하는 서비스

 

온 프레미스

- 규모 산정 : 기반 대상(하드웨어, 네트워크)

* 세션 : A-B 신원확인, 연결된 활성화 상태 / L7(5계층 이상)

* 트랜잭션 : 요청 응답으로 구성되어 있는 거래 단위

* 하드웨어 부품 : CPU, 메모리, 스토리지, 디스크

* 네트워크 : 처리량, 대역폭, Latency (응답속도)

- 스케일링 (규모 확장성) : 한계, 불편, 비효율

 

클라우드

- 워크로드 산정 : 선제적인 추정(낭비) -> 요금 계산기

* 워크로드 : 하나의 서비스를 하기 위해서 필요한 논리적 자원의 총합

- 스케일링 : 한계 최소화, 편리, 효율, 논리적(볼륨)

 

** 스케일 인-아웃(수평적 확장) : 수량 축소(인), 수량 확장(아웃) Ex. 수량 대수 늘려가는 방식

** 스케일 업-다운(수직적 확장) : 스펙 축소(다운), 스펙 확장(업) Ex. 스펙, 슬롯, 보드 부착 부품 늘려가는 방식


사용도

서버리스 : 가볍고, 상태(독립), 속도가 둔감 Ex. 신용평가 데이터 조회, 검색, API, 마케팅, 설문, 안내

클라우드 : 생성 유지(존재), 속도가 민감, 일관, 확장, 상태(세션) 저장하면서 처리 Ex. OLTP, OLAP

 

과금 체계

서버리스 : 코드를 호출한 시간만큼(1/1000초 단위) 과금 // 코드 호출 - 서버 O - 코드 종료 - 서버 X

클라우드 : 서버를 생성한 시간만큼(1초 단위) 과금 // 서버 생성 - 과금

 

서버리스 보안 : IaC 보안, API 보안, SaaS (개발 서비스 보안)

 

엣지 클라우드 vs 클라우드

- 엣지 : 온 디아비스 (정보처리 성능), CDN (분산 캐시 서비스)

** 엣지 보안 : 온 디바이스 보안, CDN 보안 (부하 분산)

 

이미지(정보 파싱, 압축, 구조화) vs 스냅샷(원본 시스템 정보, 비구조화)


다음...

 

DAS, NAS, SAN

블록, 파일, 오브젝트

관계형 DB, NoSQLDB

데이터, 데이터 베이스, 데이터베이스관리시스템

데이터웨어하우스, 데이터레이크, 데이터마트, 데이터메시

'실더스 루키즈 교육' 카테고리의 다른 글

34. 인공지능과 데이터 3  (0) 2024.02.07
33. 인공지능과 데이터 2  (0) 2024.02.06
31. Elastic 실습  (0) 2024.01.31
30. Elastic  (0) 2024.01.30
29. Splunk  (0) 2024.01.25