[AIDE 2급] 4. 인공지능과 빅데이터
인공지능 빅데이터 활용
인공지능과 데이터라벨링
저작권과 초상권
퀴즈
학습정리
1. 인공지능 빅테이터 활용(빅데이터란?)
빅데이터 Big Data : 대량의 정형, 비정형 데이터로 부터 가치를 추출하는 기술
- 정형 데이터 : 수치화 할 수 있는 데이터 등
- 비정형 데이터 : 영상, 사진, 음성과 같은 데이터
빅데이터의 특징
대량의 모든 데이터 | 데이터의 가치와 결과분석 기술 | 빅데이터 플랫폼의 등장 | 대규모의 데이터 관리 기술 |
컴퓨터, 인터넷 등 디지털 환경에서 발생하는 데이터를 정의 | 데이터의 관리에서 데이터를 분석하여 가치 창출하는 기술 | 데이터를 관리하는 하드웨어, 소프트웨어, 어플리케이션의 등장 | 데이터를 저장, 관리, 분석하는 하드웨어, 소프트웨어, 유통, 활용기술 |
- 하루에도 대량의 데이터가 지속적으로 발생되는 중 - 기존 정형 데이터에서 비정형 데이터로 많은 데이터가 발생하고 있음
- 컴퓨터 발전에 의해 데이터의 양과 형태도 함께 변화하는 중(소셜미디어와 스마트폰 보급으로 빅데이터 시대로 접어듬)
초기 빅데이터의 특징(3V) | 정확성(4V) Veracity | 가치(5V) Value |
규모(Volume) + 속도(velocity) + 다양성(Variety) | 정확성(Veracity) | 가치(Value) |
규모 : 데이터 양의 증가 속도 : 실시간 처리, 분석, 스트림 다양성: 데이터의 다양성(반정형, 비정형, 정형 데이터) |
데이터의 양이 많아지고 복잡해지멩 따라 수집되는 데이터가 신뢰할 수 있는 데이터인지 | 저장하고자 하는 데이터가 저장할 가치가 있는지 , 다양한 방법으로 가공하고 분석하여 비즈니스에 유용하게 사용가능한지 |
다양성
정형 Structured 데이터 : 구조화된 데이터, 고정된 필드에 저장된 데이터(데이터베이스, 엑셀, CSV)
반정형 Semi-Structured 데이터 : 고정된 필드는 아니지만, 스키마를 포함, 연상불가(XML, HTML, JSON 등)
비정형 unStructured 데이터 : 고정되지 않은 데이터, 연산불가, 형태 없음(소셜 데이터, 영상, 음성, 이미지)
2. 인공지능과 데이터 라벨링
1) 인공지능과 데이터의 상관관계
AI : 학습하기 좋은 데이터(라벨링)가 필요
Big Data : 데이터는 인공지능 학습을 위한 가공(전처리)가 필요
사람이 건강해지기 위해서 좋은 음식을 먹어야되듯이, AI도 좋은 데이터가 필요함
인공지능의 성능향상을 위해서 양질의 데이터가 충분히 제공되어야함.
인공지능 개발에 소요되는 시간 : 데이터 처리 80%
2) 데이터 라벨링, 데이터 셋
데이터 라벨링 Data Labeling : 인공지능 모델 학습을 위한 데이터를 기계가 이해 할 수 있는 형태로 가공
데이터셋 Data Set : 인공지능 학습을 위하여 필요한 데이터를 관련성 있게 모아 놓은 것으로 원천 데이터와 라벨링 데이터를 모아 놓은 자료의 집합, 데이터 셋 = 원천 데이터 + 라벨링 데이터
3) 저작권과 초상권
인공지능 및 빅데이터의 데이터 생성, 관리 시에 저작권과 초상권은 주의하여아한다.
저작권 : 사람의 생각이나 감정을 통하여 만들어진 창작적인 표현의 결과물
초상권 : 얼굴 기타 사회통념상 특정인임을 식별할 수 있는 신체적특징에 관하여 촬영 또는 그림묘사 되거나 공표되지 않으며 영리적으로 사용불가
가장 많이 접하는 저작물 및 저작권 : 이미지, 폰트, 뉴스, 기사, 포털 정보 등
4) 개인정보 취급시 주의사항
개인일반 정보 | |
신체적 정보 | 신체, 의료 |
정신적 정보 | 성향, 사상 |
재산적 정보 | 금융, 신용 |
사회적 정보 | 교육, 범위 |
기타 | 통신, 위치, 병역, 화상 |
구분 | 개인정보 | 가명정보 | 주요 특징 |
성명 | 홍길동 | 가나다(가명) | - |
나이 | 48세 | 40세 후반(범주화) | 30대(범주화) |
성별 | 남자 | 남자 | 남자 |
전화번호 | 010-1234-1234 | 010-****-**** | - |
주소 | 서울시 강남구 강남로 123 | 서울시 강남구 강남로(부분삭제) | 서울시 강남구(부분삭제) |
직업 | IT 기업 팀장 | IT 종사자(범주화) | 직장인(범주화) |
월급여 | 300만원 | 300~400만원(범주화) | 300~400만원(범주화 |
3. 퀴즈
빅데이터의 3V는 (규모), (속도),(다양성)특징을 가지고 있다.
빅데이터의 특징 중 다양성(Variety)는 (정형)데이터, (반정형)데이터, (비정형)데이터 로 분류된다.
인공지능 학습에 필요한 데이터는 (라벨링) 작업을 통하여 원천데이터와 함께 (데이터셋 )형태로 제공된다.