-
[AIDE 2급] 4. 인공지능과 빅데이터연구실/자격증 2022. 8. 7. 21:49
인공지능 빅데이터 활용
인공지능과 데이터라벨링
저작권과 초상권
퀴즈
학습정리
1. 인공지능 빅테이터 활용(빅데이터란?)
빅데이터 Big Data : 대량의 정형, 비정형 데이터로 부터 가치를 추출하는 기술
- 정형 데이터 : 수치화 할 수 있는 데이터 등
- 비정형 데이터 : 영상, 사진, 음성과 같은 데이터
빅데이터의 특징
대량의 모든 데이터 데이터의 가치와 결과분석 기술 빅데이터 플랫폼의 등장 대규모의 데이터 관리 기술 컴퓨터, 인터넷 등 디지털 환경에서 발생하는 데이터를 정의 데이터의 관리에서 데이터를 분석하여 가치 창출하는 기술 데이터를 관리하는 하드웨어, 소프트웨어, 어플리케이션의 등장 데이터를 저장, 관리, 분석하는 하드웨어, 소프트웨어, 유통, 활용기술 - 하루에도 대량의 데이터가 지속적으로 발생되는 중 - 기존 정형 데이터에서 비정형 데이터로 많은 데이터가 발생하고 있음
- 컴퓨터 발전에 의해 데이터의 양과 형태도 함께 변화하는 중(소셜미디어와 스마트폰 보급으로 빅데이터 시대로 접어듬)
초기 빅데이터의 특징(3V) 정확성(4V) Veracity 가치(5V) Value 규모(Volume) + 속도(velocity) + 다양성(Variety) 정확성(Veracity) 가치(Value) 규모 : 데이터 양의 증가
속도 : 실시간 처리, 분석, 스트림
다양성: 데이터의 다양성(반정형, 비정형, 정형 데이터)데이터의 양이 많아지고 복잡해지멩 따라 수집되는 데이터가 신뢰할 수 있는 데이터인지 저장하고자 하는 데이터가 저장할 가치가 있는지 , 다양한 방법으로 가공하고 분석하여 비즈니스에 유용하게 사용가능한지 다양성
정형 Structured 데이터 : 구조화된 데이터, 고정된 필드에 저장된 데이터(데이터베이스, 엑셀, CSV)
반정형 Semi-Structured 데이터 : 고정된 필드는 아니지만, 스키마를 포함, 연상불가(XML, HTML, JSON 등)
비정형 unStructured 데이터 : 고정되지 않은 데이터, 연산불가, 형태 없음(소셜 데이터, 영상, 음성, 이미지)
2. 인공지능과 데이터 라벨링
1) 인공지능과 데이터의 상관관계
AI : 학습하기 좋은 데이터(라벨링)가 필요
Big Data : 데이터는 인공지능 학습을 위한 가공(전처리)가 필요
사람이 건강해지기 위해서 좋은 음식을 먹어야되듯이, AI도 좋은 데이터가 필요함
인공지능의 성능향상을 위해서 양질의 데이터가 충분히 제공되어야함.
인공지능 개발에 소요되는 시간 : 데이터 처리 80%
2) 데이터 라벨링, 데이터 셋
데이터 라벨링 Data Labeling : 인공지능 모델 학습을 위한 데이터를 기계가 이해 할 수 있는 형태로 가공
데이터셋 Data Set : 인공지능 학습을 위하여 필요한 데이터를 관련성 있게 모아 놓은 것으로 원천 데이터와 라벨링 데이터를 모아 놓은 자료의 집합, 데이터 셋 = 원천 데이터 + 라벨링 데이터
3) 저작권과 초상권
인공지능 및 빅데이터의 데이터 생성, 관리 시에 저작권과 초상권은 주의하여아한다.
저작권 : 사람의 생각이나 감정을 통하여 만들어진 창작적인 표현의 결과물
초상권 : 얼굴 기타 사회통념상 특정인임을 식별할 수 있는 신체적특징에 관하여 촬영 또는 그림묘사 되거나 공표되지 않으며 영리적으로 사용불가
가장 많이 접하는 저작물 및 저작권 : 이미지, 폰트, 뉴스, 기사, 포털 정보 등
4) 개인정보 취급시 주의사항
개인일반 정보 신체적 정보 신체, 의료 정신적 정보 성향, 사상 재산적 정보 금융, 신용 사회적 정보 교육, 범위 기타 통신, 위치, 병역, 화상 구분 개인정보 가명정보 주요 특징 성명 홍길동 가나다(가명) - 나이 48세 40세 후반(범주화) 30대(범주화) 성별 남자 남자 남자 전화번호 010-1234-1234 010-****-**** - 주소 서울시 강남구 강남로 123 서울시 강남구 강남로(부분삭제) 서울시 강남구(부분삭제) 직업 IT 기업 팀장 IT 종사자(범주화) 직장인(범주화) 월급여 300만원 300~400만원(범주화) 300~400만원(범주화 3. 퀴즈
빅데이터의 3V는 (규모), (속도),(다양성)특징을 가지고 있다.
빅데이터의 특징 중 다양성(Variety)는 (정형)데이터, (반정형)데이터, (비정형)데이터 로 분류된다.
인공지능 학습에 필요한 데이터는 (라벨링) 작업을 통하여 원천데이터와 함께 (데이터셋 )형태로 제공된다.
'연구실 > 자격증' 카테고리의 다른 글
[AIDE 2급] 실습 (0) 2022.08.07 [AIDE 2급] 5. 데이터 라벨링 기초 이론 (0) 2022.08.07 [AIDE 2급] 3. 인공지능 알고리즘 (0) 2022.08.07 [AIDE 2급] 2. 인공지능 방법론 (0) 2022.07.13 [AIDE 2급] 1. 4차 산업과 인공지능 (0) 2022.07.12