Courses
-
Machine learning 강의 완강 후기Courses/Andrew Ng - Machine Learning 2022. 2. 28. 14:44
강의를 마치며 12월에 시작한 강의를 약 2달 정도 수강하여 마무리하게 되었다. 사실은 2월 중순에 이미 끝냈었는데, 다른 일 때문에 바빠서 2월의 마지막 날에 후기를 올리게 되었다. 이 강의를 통해 머신 러닝이 무엇인지를 알게 되었고 이 쪽 분야에 입문할 수 있게 되었다. 사실, 더 큰 꿈을 갖게 도와준 강의라고 할 수 있다. 살면서 지금까지 했던 공부중에 가장 흥미롭고 재미있었다. 오랜만에 열정을 불태웠다 ㅎㅎ 앞으로 이쪽으로 더 깊게 공부하고 성장하려는 욕구가 솟아오른다. 앞으로의 계획 이제 이론을 어느 정도 알게 되었으니 실제 파이썬으로 구현을 연습하고 있다. numpy, matplotlib, scikit-learn ,pandas 등의 데이터 분석 라이브러리도 공부하고 있다. 중장기적인 목표는 토..
-
[Week 11] Photo OCRCourses/Andrew Ng - Machine Learning 2022. 2. 28. 14:31
Problem Description and Pipeline Photo OCR은 이미지의 텍스트 인식 기술을 뜻합니다. 사진속의 단어나 문장들을 인식하고 텍스트로 변환하는 기술입니다. 이 또한 머신러닝 기술을 활용하여 다룰 수 있습니다. OCR은 Optical Character Recognition의 줄임말로 이미지의 텍스트를 인식하는 기술입니다. 위와 같은 사진이 있을 때 간판이나 창문에 적혀있는 "LULAB's" 같은 단어를 텍스트로 인식하여 나중에 이 사진을 찾을 때 단어로 검색할 수 있게 합니다. 먼저 알고리즘은 사진을 살펴보고 텍스트가 존재하는 위치를 감지합니다. 그 이후 인식한 단어의 문자를 하나하나 분리합니다. 분리한 문자들을 인식하여 알파벳으로 분류합니다. 이러한 복합적인 머신러닝 어플리케이..
-
[Week 10] Advanced TopicCourses/Andrew Ng - Machine Learning 2022. 2. 25. 22:48
Online learning 미리 입력된 데이터셋이 아닌 실시간으로 유입되는 데이터를 모델링하는 온라인 학습에 대해 알아봅니다. 대부분의 웹사이트의 경우 이용자들이 서비스를 이용하면서 새로운 데이터를 계속 생성하고 이를 머신 러닝 모델에 학습시킬 수 있습니다. 배달 서비스 회사를 운영한다고 가정했을 때, 사용자들은 A장소에서 B장소로 배달을 요청합니다. 입력되는 데이터는 장소, 물건 종류 등등입니다. 주어진 데이터를 바탕으로 배달 가격을 제안합니다. 사용자가 제안 가격을 받아들이면 y==1 positive 예제가 되고 거절하면 y==0 negative 예제가 됩니다. 알고리즘은 데이터셋을 학습하여 최적화 된 배달 가격을 제공하려고 합니다. 사용자가 접속하여 입력한 출발지와 목적지, 웹사이트가 제시한 가격..
-
[Week 10] Gradient Descent with Large DatasetsCourses/Andrew Ng - Machine Learning 2022. 2. 23. 22:35
Learning With Large Datasets 이번 강의에서는 대규모 데이터를 다루는 머신 러닝에 대해 알아봅니다. 빈 칸에 들어갈 단어를 유추하는 모델을 개발한다고 가정합시다. 알고리즘은 (to,two,too) 라는 옵션 중에서 가장 문맥에 어울리는 two를 선택할 것 입니다. 데이터를 많이 학습한 알고리즘이 잘 동작하게 되고 이런 결과로 인해 가장 많은 데이터를 가진 사람이 승자라는 말도 있습니다. 하지만 많은 양의 데이터셋을 처리하려면 연산력과 속도의 제약이 붙습니다. 만약 학습 셋의 크기가 약 1억 정도라면 경사 하강법의 한 스탭을 계산하는데 1억 번 합산해야 하고 이는 엄청난 비용을 지불해야 함을 의미합니다. 그런 비용을 줄이기 위해 무작위로 예제를 선택하여 타당성 검사를 진행합니다. 예를..
-
[Week 9] Recommender SystemsCourses/Andrew Ng - Machine Learning 2022. 2. 9. 18:47
Predicting Movie Ratings 이번 시간엔 추천 시스템을 다룹니다. 영화 등급을 예측하는 문제를 예시로 듭니다. 4명의 유저가 5개의 영화에 대해 별점으로 평가합니다. 0~5가 값이 될 수 있습니다. 이 예제에는 로맨틱 영화와 액션 영화가 있습니다. 앨리스는 로맨틱 영화에 높은 별점을 주었지만 액션 영화는 선호하지 않습니다. 반대로 캐롤은 로맨틱 영화에는 낮은 점수를 주었지만 액션 영화에 높은 별점을 주었습니다. r(i,j)는 사용자 j가 영화 i에 별점을 주었는지 평가 여부입니다. 평가를 했다면 r(i,j) = 1, 아니라면 r(i,j) = 0 입니다. y^(i,j) 는 사용자 j가 영화 i에 준 평점입니다. 앨리스가 유저 1이고 Love at last가 영화 1이라면 y^(1,1) = ..
-
[Week 9] Buidling an Anomaly Detection SystemCourses/Andrew Ng - Machine Learning 2022. 2. 8. 22:44
Developing and Evaluating an Anomaly Detection System 저번 시간에 이상 탐지 알고리즘을 개발하였고 이번 시간에는 알고리즘을 평가하는 방법을 다룹니다. 알고리즘의 성능을 수치로 평가하는 것이 개발하는 과정에 있어서 훨씬 더 좋은 방법입니다. 지금까지는 이상 탐지 문제를 비지도 학습 문제로 취급하였으나 사실 일반적인 방법은 이상 예제와 정상 예제를 구분하는 레이블이 있는 데이터를 사용하는 것입니다. y=0은 정상, y=1은 비정상 예제를 표시합니다. 레이블이 없다면 정상 예제로 간주합니다. 다음으로 교차 검증 셋과 테스트 셋을 정의합니다. 교차 검증 셋과 테스트 셋은 이상 예제를 포함합니다. 구체적으로, 10000개의 정상 예제, 20개의 비정상 예제가 있다고 합시..
-
[Week 9] Anomaly DetectionCourses/Andrew Ng - Machine Learning 2022. 2. 8. 22:00
Density Estimation 머신 러닝을 이용한 이상 탐지 문제에 대해 알아보겠습니다. 주로 비지도 학습 알고리즘에 속하지만, 지도 학습 문제와 유사한 면도 있습니다. 항공기의 엔진을 제조한다고 생각해봅시다. 품질 보증 단계에서 테스트를 진행합니다. 엔진의 발열이나 진동같은 변수들을 측정합니다. 이상 탐지 문제는 엔진이 정상인지 비정상인지 탐지하는 것이 목적입니다. 녹색 데이터는 xtest로 새로운 데이터 셋입니다. 만약 다른 엔진들과 비슷한 위치에 있다면 문제가 없다고 생각해도 괜찮습니다. 반면에 xtest가 다른 엔진들과 멀리 떨어져 있다면 비정상입니다. 어떤 임의의 x 데이터가 비정상일 확률을 계산합니다. 이를 p(x)로 정의합니다. x의 확률이 어떤 특정값 엡실론보다 작다면 비정상이고 , 엡..
-
[Week 8] Applying PCACourses/Andrew Ng - Machine Learning 2022. 1. 30. 16:12
Reconstruction from Compressed Representation 차원 축소한 데이터를 다시 원본으로 돌릴 수 있을까요?? Z= UreduceT * X 로 데이터를 변환했었습니다. 따라서 X = Ureduce * Z 를 하면 구할 수 있고 원본 X의 근사값이 됩니다. 이를 재구성(Reconstruction) 이라고 합니다. Choosing the Number of Principal Components PCA의 파라미터 k, 즉 축소할 차원의 수는 어떻게 정해야할까요? 각 데이터 셋의 원점으로부터의 거리의 평균 분의 투영 오차의 평균을 나눈 값이 0.01 이하가 되도록 설정합니다. PCA에서 이 뜻은 99%의 분산을 유지한다는 뜻입니다. 이 분산을 유지하는 최소의 k를 선택합니다. k를 하..