ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Week 8] Motivation
    Courses/Andrew Ng - Machine Learning 2022. 1. 30. 14:43

    Data Compression

     

     데이터 압축은 메모리나 디스크 사용량을 줄이고 학습 알고리즘의 속도를 높일 수 있는 방법입니다. 차원 축소를 이용한 데이터 압축에 대해 알아보겠습니다.

     

     

     두 개의 변수 x1 ,x2가 있습니다. x1은 cm 단위이고 x2는 inch 단위입니다. 똑같이 물체의 길이에 대한 변수이지만 단위만 다릅니다. 따라서 2차원이 아닌 1차원으로 줄이는 것이 더 효율적입니다. 중복되는 변수가 발생하는 일은 흔한 일입니다. 이제 데이터들을 녹색 직선에 투영하고 이를 z1으로 부릅니다. x^(m) 은 z(m)으로 치환 가능합니다. 이렇게 차원 축소를 실행하면 메모리를 아끼고 알고리즘의 속도도 올릴 수 있습니다.

     

     

     보통 1000개의 변수를 100개로 줄이는 것 처럼 큰 스케일의 작업을 주로 하지만 이해를 위해 3차원 데이터 셋을 2차원으로 축소해보겠습니다. 3차원 데이터 셋에서는 어떤 2차원 평면에 데이터들을 투영할 수 있습니다. 그렇다면 변환된 데이터 z는 z1 z2로 이루어진 벡터일 것 입니다. 변환된 2D 데이터는 우측 z1 z2 분산도와 같습니다.

     

    Visualization

     

     위와 같은 국가별 경제 지표 통계 데이터가 있다고 합시다. 변수가 50개라면 데이터의 차원은 50차원입니다. 시각화는 데이터를 이해하는 효율적인 방법 중 하나이지만 50차원을 도식화 할 수는 없습니다. 따라서 50차원을 2차원으로 축소시켜 표시해보겠습니다.

     

     50개나 되던 변수들을 2개로 축소시켰습니다. z1은 국가 규모나 GDP와 같은 경제활동에 대한 변수입니다. z2는 국민 일인당 복지 GDP 경제활동 등등입니다. 

     

     z를 기준으로 도식화하였습니다. z1축 기준으로 커질 수록 국가의 규모나 GDP가 커집니다. z2기준으로 커질 수록 인당 GDP나 복지혜택이 높은 국가입니다. 미국같은 나라는 국가의 규모도 크고 인당 경제 규모와 복지도 높습니다. 싱가포르는 인당 경제 규모는 크지만 나라의 규모가 미국보다 작기 때문에 z1이 더 작아 왼쪽에 표시되었습니다. 이렇게 차원 축소를 사용하여 데이터에 대한 더 나은 이해를 얻을 수 있습니다.


    혼자서 강의를 듣고 정리한 것이니 틀린 점이 있다면 언제든지 지적 부탁드립니다 :)

    'Courses > Andrew Ng - Machine Learning' 카테고리의 다른 글

    [Week 8] Applying PCA  (0) 2022.01.30
    [Week 8] Principal Component Analysis  (0) 2022.01.30
    [Week 8] Clustering  (0) 2022.01.27
    [Week 7] SVMs in Practice  (0) 2022.01.23
    [Week 7] Kernels  (0) 2022.01.23

    댓글

Designed by Tistory.