[AIDE 2급] 5. 데이터 라벨링 기초 이론

연구실/자격증 2022. 8. 7. 22:34

1. 데이터 라벨링

사람과 인공지능의 차이

일정 수준 이상의 학습 받은 사람은 사진에 위치한 대상이 무엇인지 알 수 있으나, 인공지능은 단순 숫자로만 보기 때문에 대상이 무엇인지 알지 못한다.

인공지능을 개발하기 위해선 가각이 무엇을 의미하는 표시해 학습 시켜야함.

이건 고양이다, 커피다, 이렇게 하나씩 표시해서 인공지능을 학습 시켜야함.

데이터 라벨링 정의

인공지능 알고리즘 고도화를 위해 A가 스스로 학습 할 수 있는 형태로 데이터를 가공하는 작업

학습 데이터 구축 과정

1) 수집 > 2)정체 > 3)라벨링 > 4)검수

2. 인공지능 학습용 데이터 구축 과정

1) 데이터 수집 : 작업 대상과 기주넹 맞춰 사진 영상을 촬영하여 업로드 하거나 음성을 녹음하겨 바로 업로드하는 형태의 작업

2) 데이터 정제 : 수많은 형태의 데이터를 모두 인공지능이 이해할 수 없기 때문에 정제과정을 통해 인공지능이 학습할 수 있는 형태로 바꿔주는 과정

정제방식 : 데이터의 오류 제거, 필요한 형식이나 크기에 맞게 변형, 불필요한 데이터의 제거, 개인정보 비식별화 처리

3) 라벨링 : 수집한 데이터에서 의미 있는 데이터를 찾아 각각의 위치, 크기, 대상에 대한 정보와 같은 것을 달아주는 작업

4) 데이터 검수 : 데이터에 잘못된 라벨이 부착됐다면 잘못된 학습 결과가 발생, 올바른 학습, 좋은 품질의 학습데이터를 위해서 꼭 필요한 작업

3. 데이터 유형별 라벨링 방법

1) 이미지 데이터

랜드마크, 손글씨, 얼굴인식, 질환 진단 등에 활용되며 작업대상과 기준에 맞춰 사진을 찍어 업로드 하는 방식으로 진행

라벨링 방법	설명	비고
바운딩	마우스를 드래그하여 작업 대상에 박스를 그리는 작업 작업 대싱이 2개인 경우, 바운딩과 함께 태깅이 진행됨
감정분석	사진 속 사람의 표정을 보고 어떤 감정 상태일지를 추론하는 작업 해당되는 감정을 태깅하거나 글로 묘사하는 방식으로 진행
키포인트	작업 대상의 특정 지점에 마우스를 클릭하여 점을 찍는 작업 각 특징점을 비교하여 이미지를 매칭하거나 골격을 추출하는 기술에 주로 이용함
얼굴 랜드마크	마우스를 클릭하여 점을 찍는 작업으로 점의 위치는 얼굴 주요 부위에 해당하는 작업 안면인식과 표정변화를 통한 감정인식 기술에 주로 이용됨
OCR	이미지 속의 글자를 바운딩 한 후 태깅이나 전사하는 작업 바운딩 : 이미제엇 추출하고자 하는 대상을 네모난 박스로 표시하는 작업 태깅 : 대표할 수 있는 키워드를 달아줌으로써 대상을 분류하는 작업 전사 : 시각 문자를 텍스트로 옮겨 적는 작업
폴리곤	작업 대상의 외곽선을 따라 점을 찍어 점으로 부터 시작해서 선의 형태로 이어져 빈 공간 없이 대상을 검출하는 라벨링 작업 점으로 부터 시작해서 선의 형태로 이어지기 때문에 빈 공간 없이 대상을 검출하는데 효과적 시작점과 끝점이 연결됨
폴리라인	선을 라벨링 할떄 주로 선택하는 작업 방식으로 작업 대상을 따라 여러 개의 점을 연속적으로 그리는 작업 시작점과 끝점이 연결되지 않음

2) 영상 데이터

이상 행동탐지나 동작분석, 감정 인식에 활용되며, 보통 작업 대상과 기준에 맞춰 영상을 찍어 업로드하는 방식

라벨링 방법	설명	비고
바운딩	영상 속에서 작업 대상을 박스에 넣어주는 작업
스켈레톤 추출	작업 대상의 행동 패턴을 분석하기 위해 특정 부위에 점을 찍어주는 작업
시멘틱 세그멘테이션	폴리곤, 폴리라인, 브러쉬 등을 사용하여 경계를 나누어 분할함으로써 이미지 내의 모든 대상의 위치 및 모양 등을 영역을 분류해내는 방법
특정 구간 추출	작업 대상이 사전에 제시된 기준에 해당하는 말이나 행동 등을 할때의 구간을 선택해 추출하는 작업
3D 라벨링	육면체의 입체적인 박스를 생성하여 바운딩
멀티 모달 라벨링	모션 영상, 음성, 텍스트 등이 복합적으로 구성

3) 텍스트 데이터

텍스트, 문자로 구성되어 있는 데이터로 언어 모델이라고 부름.

인터넷 자동 완성 기능이나 연관 검색어가 이에 해당하고 비대면 의사소통이 증가함으로써 챗봇 서비스의 개발 및 사용또한 활발해지고 있음
제시된 내용에 적절한 질문을 작성하거나 Q&A 대화를 만드는 방식으로 수집

라벨링 방법	설명	비고
문장 의미 비교	주어진 문장들의 의미가 같은 것인지 여부를 태깅하는 작업
감정 태깅	제시된 글을 읽었을 때 느껴지는 감정을 선택하는 작업
키워드 찾기	대화 내용 속에서 핵심이 되는 키워드를 찾는 작업
문장요약	글을 읽고 핵심이 되는 내용을 요약하는 작업

4) 음성 데이터

상황별 맞춤 대화록 작성과 음성을 문서로 변환해주는 서비스는 물론, 자동번역, 영상 자막 등에서 활용

휴대폰으로 음성 등의 소리를 녹음하여 바로 업로드한느 ㅂ아법

라벨링 방법	설명	비고
화자 구분	제시 된 음성을 모두 듣고, 동일한 사람의 목소리인지를 판단해서 태깅하는 작업
음성 받아쓰기	주어진 음성을 듣고 받아쓰는 작업 일반전사 : 사람이 말한 그대로 문자화하여 전사 이중 전사 : 한글 맞춤법 표기에 따른 발음과 차이가 있는 경우에 "발음 전사"와 "철자 전사"를 별행하여 전사

저작자표시 비영리 변경금지 (새창열림)

'연구실 > 자격증' 카테고리의 다른 글

[AIDE 2급] 개념 정리 01 (0)	2022.08.13
[AIDE 2급] 실습 (0)	2022.08.07
[AIDE 2급] 4. 인공지능과 빅데이터 (0)	2022.08.07
[AIDE 2급] 3. 인공지능 알고리즘 (0)	2022.08.07
[AIDE 2급] 2. 인공지능 방법론 (0)	2022.07.13

ABOUT ME

김부업 김부업

1. 데이터 라벨링

2. 인공지능 학습용 데이터 구축 과정