Deep Learning/Computer Vision 7

내가 쓰기 위해 정리한 영상 변환 ffmpeg 간단한 shell 명령어

내가 동영상을 활용한 딥러닝 프로젝트를 진행하면서 자주 사용했던 동영상 처리 명령어를 정리해놓았다. mov 파일 mp4 파일로 저장 ffmpeg -i [input.mov] -vcodec h264 -acodec aac [output.mp4] mp4 파일을 mp3파일로 저장 ffmpeg -i input.mp4 -vn -acodec libmp3lame -q:a 4 -ab 128k output.mp3 -i input.mp4 : 입력 mp4 파일 지정 -vn : 비디오 트랙을 비활성화한다. (audio only) -acodec libmp3lame : 오디오 코덱을 mp3로 지정 q:a : quality 수준 (0에서 9까지 있으며 9가 가장 품질이 높은 것) -ab 128k : 비트레이트를 128kbps로 지정 ..

Q. 내 노트북의 웹캠 화면을 핸드폰이나 아이패드로 보려면 어떻게 해야할까?

A. 로컬 컴퓨터에 rstp 서버를 설치하고, ffmpeg, gstreamer 같은 멀티미디어 스트리밍 프레임워크를 활용하여, 전송한다. 1. 내 로컬 컴퓨터에 rstp 서버 설치 및 실행 2. ffmpeg , gstreamer 등을 활용하여 스트리밍 영상 전송하기 3. 포트 포워딩으로 외부 접속 가능하게 포트 열기 4. rstp주소로 접속하여 노트북에서 스트리밍하는 영상 확인

이미지 검색 결과를 바탕으로 데이터셋 만들기 (Google Custom Search API, Bing Image Search API)

지금까지는 주로 잘 알려진 벤치마크 데이터셋이나 AI Hub나 kaggle의 데이터셋을 활용하는 과제만 해왔다. 그래서 사실 직접 이미지 데이터를 수집하고 정제하는 경험이 많지 않았...거의 없었다. (물론 이미 수집된 데이터도 과제에 따라서 정제하고 전처리하는 과정을 거치긴 하지만 거친 세상(in the wild ㅋㅋ)에 있는 데이터를 수집해서 추리는 과정에 비하면 훨씬 간단하고 단순한 편이다. 이번에 시간이 좀 생겨서 모델 품질 향상을 위해 다양한 데이터를 활용할 겸, 이미지 데이터셋 만들기 연습,훈련도 할 겸 이미지 검색 결과를 바탕으로 데이터셋을 만드는 연습을 해봤다. 1. Google Custom Search API 활용하기 참고 http://sudahe.blogspot.com/2019/08/s..

w15 과제 2 pix2pix 또는 cycleGAN 예제 코드를 다른 데이터셋을 활용하여 실행해보기

사실 custom YOLO / custom MaskRCNN 만들기 과제가 더 어렵고, 남는 게 많을 것 같았지만, 과제 1에서 수많은 시행착오를 겪는데 너무 많은 시간을 소비해서 상대적으로 가벼운 과제를 선택해 실행하였다. pix2pix와 cycleGAN은 텐서플로우 튜토리얼 코드를 실행하면서 walkthrough 로 코드를 간단히 설명해주는 동영상 강의를 보았는데, 솔직히 line by line 코드를 이해하기는 어렵다는 생각이 들었다. https://www.tensorflow.org/tutorials/generative/pix2pix?hl=ko Pix2Pix | TensorFlow Core 이 노트북은 Conditional Adversarial Networks를 사용한 이미지 간 변환에서 설명한 대로..

W15 과제 1 : 전이학습을 활용한 영상 이미지 multi-class classification 과제

과제는 별 설명이 없었다. https://www.kaggle.com/c/diabetic-retinopathy-detection Diabetic Retinopathy Detection | Kaggle www.kaggle.com 이 데이터를 전이학습하여 좋은 결과를 내라는 것. 안저 영상 데이터이고, label은 0(정상)부터 4(아주 심각한 당뇨성 망막변증) 까지 multi class 였다. 비전 데이터 전이학습을 하는 것이 과제지만, 대부분의 시간을 데이터를 처리하는데 씨름하느라, 전이학습에서 많은 시도를 해보지 못했다. 데이터가 82g이고, 그렇게 큰 덕택에 분할 압축되어 있어서 이걸 다운받아서 풀고, 또 처리할 수 있는 환경을 만드느라 2~3일이 걸렸다. gpu를 활용하지 못하는 로컬에서는 할 수 없..

[W14D4] Object Detection, Faster RCNN

Contents 과제 : object detection classification문제 보다 좀 더 복잡하다. 왜 더 복잡한 과제인가? 이 문제를 해결하기 위한 각 요소 기술은 무엇인가? (RCNN을 중심으로) faster RCNN의 요소 기술들 중에서 다른 object detector에서 공통으로 사용되는 것들을 살펴보려고 한다. 1. Object Detection 문제 정의 영상안에 있는 모든 물체(object)들과 그것들의 위치(영역)을 함께 찾는다. Classification + Localization(관심 대상 하나) vs Object Detection(여러 개의 물체가 대상) 대상이 하나면 네트워크가 단순. 물체가 몇 개인지 알 수 없기 때문에 output 구성을 어떻게 해야 하는지가 어려움 입..