1. BERT Embedding 방식의 필요성 - one-hot encoding embedding 방식 : text를 벡터로 바꿔주지만 단어간 유사도를 측정하기 어렵고, 희귀 단어, 이름, 숫자나 단어장에 없는 단어에 대한 학습에 어려움이 존재 - 이로 인해 OOV (out of vocabulary) 문제 발생 - 사전에 training 하지 않은 label이 input으로 들어올 경우 OOV 문제로 예측을 정상적으로 하지 못하는 현상 - 따라서 미등록 단어 (OOV) 문제에 대해 해결하고자 embedding 방식을 변경할 필요가 있었음. 2. BERT Embedding 방식? - 구글에서 개발한 NLP 사전 훈련 기술이며, 특정 분야에 국한된 기술이 아니라 모든 자연어 처리 분야에서 좋은 성능을 내는 ..
Generator based AI 1. Approach - tf-idf로 추출한 label값과 value의 시작 글자를 입력받아 첫 번째 글자를 예측 - 이 글자를 다시 반복해서 모델에 집어넣어 두 번째 글자를 예측 - 이 과정을 "eos"가 출력될 때까지 반복 2. Dataset - value: target value - label: mobile element의 tf-idf로 라벨링한 대표값 3. Embedding - 기존: label값에 대하여 one hot encoding 사용 - one hot의 단점: text를 숫자로 바꿔주지만 단어간 유사도를 측정하기 어려움 - 또한 미등록 단어(out of vocabulary)문제 발생 - 따라서 BERT model을 사용하기로함. 4. Classifier ..
1. Object Detection이란? Object Detection은 Image Classification task에 사물의 위치를 Bounding Box로 예측하는 Regression task가 추가된 문제! multi-labeled classification : 한 이미지에 여러 class 존재 boounding box regression : box의 좌표 값을 예측 따라서 Object Detection = Multi-labeled Classification + Bounding Box Regression 2. Sliding Window 다양한 scale의 window를 이미지의 왼쪽 위부터 오른쪽 아래까지 sliding하며 score를 계산하는 방법을 의미. 하나의 이미지에서 여러번 score를 ..
아래 내용은 '모두의 딥러닝' 책을 스터디 하여 정리한 내용입니다. 참 거짓 판단 장치: 로지스틱 회귀참과 거짓 중에 하나를 내놓는 과정은 로지스틱 회귀의 원리를 거쳐 이루어진다.참, 거짓을 구분하는 로지스틱 회귀의 원리를 이용해 '참, 거짓 미니 판단 장치'를 만들어 주어진 입력 값의 특징을 추출하고,이를 저장해서 '모델'을 만든다.그 후 누군가 비슷한 질문을 하면 지금까지 만들어 놓은 이 모델을 꺼내어 답을 한다.이것이 바로 딥러닝의 동작 원리이다. 1. 로지스틱 회귀의 정의좌표의 형태가 직선으로 해결되기에 적절하지 않은 경우도 있다.예를 들어 공부한 시간에 따른 합격 여부가 있다고 해보자. 합격을 1, 불합격을 0이라고 했을 때 이는 일차 방정식을 만들 수 있을까?점들의 특성을 정확하게 담아내려면 ..
오차 수정하기: 경사 하강법 그래프에서 오차를 비교하여 가장 작은 방향으로 이동시키는 방법미분 기울기를 이용 미분 : 한 점에서의 순간 기울기함수 f(x)를 x로 미분하라는 것은,x의 변화량이 0에 가까울 만큼 작을 때y 변화량의 차이를x 변화량으로 나눈 값(순간 변화율)을 구하라는 뜻 1. 경사 하강법이차 함수 그래프에서 기울기 a를 변화시켜서 그 자리에서 미분하면 각 점에서의 순간 기울기가 그려진다.우리가 찾는 최솟값 m에서의 순간 기울기는이차 함수 포물선이므로, x축과 평행한 선이 된다.즉 기울기가 0이다.따라서 우리가 할 일은 '미분 값이 0인 지점'을 찾는 일이다.이를 위해 다음 과정을 거치는데1) a1에서 미분을 구한다2) 구해진 기울기의 반대 방향으로 이동시킨 a2에서의 미분을 구한다3) a..
선형 회귀 x값이 변함에 따라 y값도 변한다는 정의 안에서, 독립적으로 변할 수 있는 값 x를 독립 변수라고 한다.또한, 이 독립 변수에 따라 종속적으로 변하는 y를 종속변수라고 한다. 선형회귀 : 독립변수 x를 사용해 종속변수 y의 움직임을 예측하고 설명하는 작업을 말한다.정확한 직선을 그려내는 과정이다. 독립변수가 x 하나뿐이어서 이것만으로 정확히 설명할 수 없을 때는 x1, x2, x3...등 x값을 여러 개 준비해 놓을 수 있다.단순선형회귀 : 하나의 x값만으로도 y값을 설명할 수 있을 때(ex : '공부한 시간'에 따른 성적)다중선형회귀 : x값이 여러개 필요할 때 1. 가장 훌륭한 예측선 그리기 y = ax + b 의 식으로 일차 함수 그래프를 나타낼 수 있다.선형 회귀는 결국 최적의 a, b..
파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문 도서를 스터디하여 정리한 내용입니다.코드는 http://wikibook.co.kr/python-machine-learning/ 에서 다운 가능합니다. [이미지와 딥러닝 - 라멘 메뉴 이미지 판별하기]책의 예제는 규동 메뉴로 가지고 했지만, 나는 라멘 메뉴를 선택하여 실습해보았다.스크레이핑으로 이미지 수집하기데이터를 전처리/가공하기머신러닝으로 분석하기 CNN 알고리즘 사용목표 : 라멘 사진을 던져주면 무슨 규라멘인지 알려주고 칼로리도 예측해보장 1.스크레이핑부터 시작하기플리커, 인스타그램과 같은 이미지 공유 사이트에서 수집할 수 있으나 가입을 해야함...가입하고 token얻고 귀찬포도주(Photozou)라는 사이트는 가입 없이 사용 가능포도주 검색 API를..
파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문 도서를 스터디하여 정리한 내용입니다.코드는 http://wikibook.co.kr/python-machine-learning/ 에서 다운 가능합니다.[이미지와 딥러닝 - CNN으로 이미지 분류하기]CNN(합성곱 신경망) 사용색상이 있는 이미지 분류하기TensorFlow + Keras 사용 1. 이미지 데이터를 파이썬 데이터로 변환하기먼저, Caltech 101 이미지 데이터 세트를 처리해서 image/5obj.npy라는 파일로 저장!src/ch7/caltech101_makedata.py 실행 1) 이미지 세트가 들어있는 폴더 이름, 분류 대상 카데고리를 지정한다.2) 이미지 크기를 지정한다. 색상 데이터를 나타내기 위해 각 픽셀마다 RGB값을 나타내는 3..
파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문 도서를 스터디하여 정리한 내용입니다.코드는 http://wikibook.co.kr/python-machine-learning/ 에서 다운 가능합니다. [이미지와 딥러닝 - 유사 이미지 검출하기]Average Hash 알고리즘 사용PIL(Pillow) 라이브러리 Average Hash이미지를 비교 가능한 해시 값으로 나타낸 것이미지가 조금 다르더라도(이미지 해상도 크기, 색조, JPEG/PNG 등의 압축 형식 등) 유사한지를 검출해야 할 때 사용. 구체적인 방법1) 이미지 크기를 8 x 8(또는 16 x 16)로 축소한다.2) 색을 그레이스케일로 변환한다.3) 이미지의 각 픽셀의 평균을 계산한다.4) 각 픽셀의 어두운 정도가 평균보다 크면 1, 평균보다 작..
Linear Regression의 cost 최소화 알고리즘의 원리 강의 슬라이드 : http://hunkim.github.io/ml/lec3.pdf - Simplified hypothesis . H(x) = Wx - cost(W)는 무엇일까? . 밥그릇 엎어놓은 모양인 그래프 . 목표 : cost가 작아지는 W와 b를 찾는것 . 사용되는 알고리즘 : Gradient descent algorithm (경사를 따라 내려가는 알고리즘) - 어떻게 작동할까? . 각 지점마다 경사도 체크 . 항상 최저점에 도달할 수 있다. . 경사도 구하는 방법은 미분! - Convex function : 모양이 convex이기 대문에 항상 답을 찾을 수 있다. (cost의 최소값)
Skin by WaaNee | Copyright © 2017 by SBeen. All Rights Reserved.