-
CV 응용 사례#4 딥러닝에서의 데이터 구성Coursera 2023. 8. 27. 16:08
* 데이터 세트의 구성
과거에는 훈련용 : 검증용 : 시험용 비율을 60:20:20 혹은 70:15:15로 나누었다.
현재는 방대한 데이터 세트로 인해, 검증용과 시험용으로 15%이하로 배분한다.
* 데이터 자료를 구축시 고려해야할 점.
고양이를 분류한다고 해보자. 여러 방햐에서 바라본 고양이사진. 다양한 조명조건 아래의 고양이. 전신이 아닌 일부만 보이는 고양이 사진 등의 다양한 조건의 자료로 구성해야한다.
- 자율주행 자동차의 예시를 보자.
1. 다양한 환경의 이미지가 필요하다. 고속도로를 달리는 차, 시골길을 달리는 차, 좁은 골목이나 비포장도로를 달리는 차 또는 아주 많은 물체로 북적거리는 도시를 달리는 차 등 다양한 환경에 자리한 자동차의 이미지가 필요하다.
2. 다양한 기상 상태 이미지도 필요하다. 맑은 날, 흐린 날, 안개가 끼고 비가 오는 날, 눈이 오는 날, 눈보라가 치는 날 등. 도로가 젖었거나 얼어 있는 이미지도 필요하다. 젖은 도로는 거울처럼 다른 물체를 반사하기 때문에 성가신 문제를 일으킬 수도 있다.
3. 다양한 물체가 필요하다. 다양한 차, 여러 가지 차종 이런저런 교통수단; 자전거라든지 작은 차, 큰 차, 작은 트럭, 큰 트럭, 버스 등. 앞서 고양이 분류 사례에서처럼 조명 조건과 다양한 위치에 대한 사진도 필요하다. 사고가 나서 전복된 트럭을 장애물로 인식하기 위해 다양한 자세의 이미지가 필요하다.
4. Edge case(에지 케이스) 길을 건너는 코끼리와 같이 주행 환경에서 마주칠 가능성이 있는 물체들을 다루는 케이스도 필요하다.
- 편견을 학습하지 않도록 주의 : 백인 보행자와 비교했을 때 흑인 보행자는 더 오랜 시간 기다려야 길을 건널 수 있다. 이와 같은 편향된 정보를 학습해선 안될 것이다.
- 윤리적 영향에 대한 고려: 아래 기사 참고
* 참고:
'Coursera' 카테고리의 다른 글
CV 응용 사례#6 Linear Filtering (0) 2023.09.05 CV 응용 사례#5 Image features: Edges (0) 2023.08.28 CV 응용 사례#3 인공신경망의 역사 (0) 2023.08.27 CV 응용 사례#2 - 동작 분석과 장면 재구성 (0) 2023.08.27 컴퓨터 비전 분야에서의 딥 러닝 응용 사례#1 (0) 2023.08.27