본문 바로가기

분류 전체보기

(155)
[ML] 교차 검증 ※ 본 글은 '혼자 공부하는 머신러닝 + 딥러닝' 교재를 토대로 작성한 글입니다. ※ 검증 세트 validation set 검증 세트는 말 그대로 모델을 검증하기 위해 사용되는 데이터 세트이다. 이때 '훈련세트가 있는데 검증세트가 왜 필요하지?' 라는 의문을 가질 수 있지만, 모델 검증(validation)과 모델 평가(evaluation)는 분리하여 생각해야 한다. 모델 검증은 모델 성능을 평가하고, 그 결과를 토대로 모델을 튜닝하는 작업을 진행한다. 반면 모델 평가는 최종적으로 '이 모델이 실전에서 이만큼 성능을 낼 것이다!' 라는 것을 확인하는 단계이다. 그렇기 때문에 모델 검증 단계와 모델 평가 단계에서 사용하는 데이터셋은 분리되어야한다. 정리하면, Test Set는 모델 튜닝을 모두 마치고 실전..
[ML] Fashion MNIST 앞선 '타이타닉 생존자 예측하기' 글과 마찬가지로 이번에도 캐글에서 제공하는 데이터셋을 이용한 실습을 진행해봤습니다.😊 앞선 글은 '어떤 모델을 사용할 수 있는가?'에 초점을 맞춘 글이었습니다. 이번 글은 '케라스, 파이토치에서 어떻게 이미지 분류를 할 수 있는지'에 더 초점을 맞춘 글이 될 것 같습니다. 목차 - Data Dictionary - Data Load - Data Preprocessing - solution1 : DNN With Keras - solution2 : CNN With Keras - solution3 : CNN With Pytorch Data Dictionary fashion mnist 데이터셋은 28*28 픽셀로 이루어진 흑백 이미지 70,000장을 제공한다. 각 이미지는 10개..
[ML] 타이타닉 생존자 예측하기 타이타닉 데이터 셋으로 생존자를 예측하여 캐글 경진대회를 입문해보고자 한다. 순서는 EDA - Feature Engineering - Modeling으로 진행된다. cf. 캐글 경진대회란? 👉 Kaggle이 궁금해? Kaggle의 모든 것! : 네이버 블로그 (naver.com) 타이타닉 데이터 셋 데이터 셋에는 승객의 정보, 생존에 대한 정보가 들어있다. 승객의 정보를 토대로 해당 승객이 생존했는지를 예측하는 것이 목표이다. 주어진 데이터셋은 아래와 같다. # 상위 5개의 row 조회 train.head() PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 1 0 3 Braund, Mr. Owen Harris ..
[ML] CNN 합성곱과 풀링 합성곱 신경망(CNN)은 합성곱 계층 (convolutional layer)과 풀링 계층 (pooling layer)이라고 하는 새로운 층을 fully-connected 계층 이전에 추가함으로써 원본 이미지에 필터링 기법을 적용한 뒤에 -> 합성곱 계층, 풀링 계층 필터링된 이미지에 대해 분류 연산이 수행되도록 구성된다. -> fully-connected 계층 합성곱 계층은 이미지에 필터링 기법을 적용해 특징을 추출하고, 풀링 계층은 이미지의 국소적인 부분들을 하나의 대표적인 스칼라 값으로 변환함으로써 이미지의 크기를 줄이는 등의 다양한 기능들을 수행한다. 합성곱 신경망의 필요성 이미지를 DNN으로 처리하기 위해선 벡터화(flatten) 시켜 DNN에 입력해야 하는데, 이때 이미지가 가진 ..
오늘부터 개발자 책 의 표지에는 '비전공자를 위한 개발자 취업 개론'이라는 글이 적혀있다. 처음 책을 봤을 때는 '비전공자를 위해 나온 책이니 나랑은 관련 없겠네'하고 넘겼었다. 하지만 생각할수록 '취업에 대한 지식'에서만큼은 비전공자와 내가 다르지 않은 것 같은 것 같았다. 컴퓨터공학과에 입학하고 2년간 많은 공부를 했지만, 어떻게 취업할 것인가? 라는 질문에는 항상 답을 내기 힘들었다. 막연하게 '코테 준비 열심히 해야지'라는 생각만 했지, 정작 개발자 취업에 대해 아무것도 모르는 느낌이 들었다. 그렇게 내 분야에 대해 아무것도 모른다는 위기감을 가지고 책을 구매하게 되었다. 책은 크게 3가지 주제로 구성되어있다. 개발자라는 직업, 개발자가 하는 일, 개발자가 되는 방법 비전공자를 타겟팅한 만큼 개발자에 대해 아무것..
[ML] 소프트맥스 회귀 (Softmax Regression) 다중 분류(Multi Classification) 문제에서 많이 사용되는 소프트맥스 회귀에 대해 알아보자. 원-핫 인코딩 (One-hot encoding) 원-핫 인코딩이란, 범주형(category) 변수를 binary 하게 표현한 것이다. 선택해야 하는 선택지의 개수만큼의 차원을 가지며, 선택지의 인덱스에 해당하는 원소에는 1, 나머지 원소는 0의 값을 가지도록 하는 표현 방법이다. 원-핫 인코딩으로 표현된 벡터를 원-핫 벡터(one-hot vector)라고 한다. ex. 0~9의 정수를 원-핫 인코딩으로 표현하면 0 = [1,0,0,0,0,0,0,0,0,0] , 5 = [0,0,0,0,0,1,0,0,0,0] 가 된다. 원-핫 인코딩의 특징 : 무작위성 원-핫 인코딩으로 나타낸 레이블은 모든 쌍에 대해..
[꾸글] FAQ Q. 허용되는 글의 정확한 기준은 뭔가요? A. 자신이 가고자 하는 분야와 관련된 글은 무엇이든 좋습니다👍🏻 해당 분야는 어떻게 구성되어 있는지를 조사하셔도 되고요. 내가 들은 강의, 강연을 정리해서 올려도 됩니다. 예를 들어 자신이 가고자 하는 분야가 건축이라면, 형식은 카페 방문 후기 이더라도 내용은 '카페 브랜드 경험 후 얻은 인사이트 정리'라면 훨씬 좋겠죠? Q. 꼭 네이버 블로그만 이용해야 하나요? A. 블로그 플랫폼이면 모두 상관없습니다. 꾸글에서도 티스토리, 깃허브 블로그, 네이버 블로그 등 다양한 형식의 블로그를 사용하고 있습니다. 링크를 클릭하시면 블로그 플랫폼 장단점을 한눈에 볼 수 있습니다. 그중 용도, 취향에 맞는 블로그 플랫폼을 사용하면 됩니다. Q. 리뷰는 어떻게 작성하나요? A..
[꾸글] 꾸준히 글쓸 인벤 회원을 모집합니다! ※ 이 글은 인하대학교 창업동아리 인하 벤처클럽(인벤)의 소모임 '꾸글' 회원 모집 글입니다. 안녕하세요? 이번 겨울방학 꾸글의 방장을 맡게 된 나영서입니다~ 📣모든 인벤 회원분들 주목!!!!📣 블로그 소모임 꾸글이 겨울방학 동안 함께 꾸준히 글 쓸 멤버를 모집합니다! 꾸글은 어떤 소모임인가요? 는 인벤의 블로그 소모임입니다. 블로그 쓰시는 분들, 잘 쓰고 계신가요? 혼자 쓰려면 진도도 안나가고 의욕도 생기지 않습니다. 하지만 요즘은 기업에서도 블로그 경험자를 우대할 정도로 블로그가 포트폴리오로 유용하게 사용되고 있습니다. 자기 PR의 역할을 할 뿐 아니라 배운 지식을 깊이 있게 정리하는 데에도 큰 도움이 돼요. 블로그는 처음 보는 사람을 위주로 작성하다 보니 간단히 설명하려다 내가 더 배우게 되는 것 ..