본문 바로가기

전체 글

(45)
나의 정당성에 대한 고찰 삶은 무엇인가 무엇을 위해 사는 것인가 어떻게 살 것인가 이 3가지에 대한 물음에 답을 하기 위해 2가지 재료를 이용하겠다. 1. 영혼 2. 육체 1. 삶이란 무엇인가? 영혼. 육체로부터 분리된 어떠한 것 지역을 불문하고 영혼에 대한 인류의 믿음이 있다. 영혼들이 머무르게 되는 사후세계에는 이승에서의 삶에 따라 상과 벌이 주어지게 된다. 이는 서양에서는 천국과 지옥, 동양에서는 환생 혹은 카르마로서 통칭된다. 또 어떤 이유에서인지 영혼들이 머무는 곳에 가지 않고 이승에 머무는 영혼이 있다. 두 가지 유형이 존재하지만 공통점으로는 모두다 이승에서의 미련을 저버리지 못한다는 것이다. 첫 번째 유형은 이승에서 이루지 못한 육체적 한 때문에 이승사람에게 나쁜 영향을 끼친다. 동양에서는 악령, 서양에서는 악마라고..
선형대수_입문 angeloyeo.github.io/2019/07/27/PCA.html 수학을 철학적으로 접근하게 해준 좋은 블로그다. 한줄 한줄 모두 사골 같은 의미가 있음. 이해하지 못한 부분이 있어 나중에 다시 학습이 필요하다. 여기서 공부한 것을 바탕으로 선형대수 기초를 완성할 예정 주성분 분석(PCA) - 공돌이의 수학정리노트 angeloyeo.github.io 벡터의 기본 연산(상수배, 덧셈) 행렬 곱에 대한 또 다른 시각 행벡터의 의미와 벡터의 내적 행렬과 선형변환 행렬식의 기하학적 의미 고윳값과 고유벡터 복소 고윳값과 고유벡터의 의미 주성분분석(PCA) 고윳값 분해(EVD) 4개 주요 부분 공간의 관계 특이값 분해(SVD) 상관계수는 벡터의 내적이다 주성분 분석까지는 이해완료 (Youtube + Post)..
남은 상반기 공부목표 3월은 계획완성의 핵심!! 4월까지 약 60일~70일 정도까지가 매우 힘들 것으로 예상된다. 최선을 다하자 3월 목표 1. M/L 과 D/L에 기반이 되는 수학에 대한 기초과정을 최적화하여 수립한다. ㄴ여러가지 관점에서 본 내용을 통해 개념을 이해할 수 있도록 하는 것이 전략 2. 기초수학 M/L 이론 MIT 6.034 Artificial Intelligence M/L 링크 BOOK_선형대수와 통계학으로 배우는 머신러닝 ***목표 : 최적화까지 설명된 이론 이해 M/L 링크 공돌이 수학노트 *중요 선형대수 MIT_Gilbert Strang 선행과정 선형대수 Feed _ 수식 접근 쑤투브 선형대수 Feed _ 이론 KhanAC_Linear Algebra 선형대수 Feed _ 기하 3Blue1Brown 선형..
데이터스케일링_로그변환 데이터가 skew 되어 있으면 항상 log변환한다라고 거의 암기하듯 받아들였다. 다른 다양한 포스팅들을 보며 도대체 로그변환을 왜 하는 것인지 한번 알아보자. 출처 : bpapa.tistory.com/66 데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다. 데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간 편차를 줄여 왜도1(skewness)와 첨도2(Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다. 예를 들어, 연령 같은 경우에는 숫자의 범위가 약 0세~120세 이하 이겠지만, 재산 보유액 같은 경우에는 0원에서 몇 조단위까지 올라갈 수 있다. 즉, 데이터 간 단위가 달..
통계를 이해하기 위한 로직 1. 통계에서는 모집단을 연산 하지 않는다. 표본을 통해서 추정하는 학문이다. 2. 사실 우리는 모집단이 정규분포를 따르는 것과 상관없이 모집단을 대상으로 측정하고자 했던 값의 대표값(평균값)과 모집단의 개체들이 이 대표값으로부터 평균적으로 얼마나 떨어져있는지(표준편차)만으로 많은 정보를 얻을 수 있다. 3. 다행이 모집단의 평균값과 표준편차는 표본으로부터 구할 수 있음이 중심극한정리를 통해 수학적으로 증명되었다. 3. 따라서 모수 추정을 위해 통계학의 모든 관심은 표본집단이다. (*명확히는 표본의 통계분포) 통계학에서 관심있는 대상은 대표값과 대표값이 갖는 오차이다. 1. 통계학에서 대표값은 평균이다. 평균값이 집단을 대표한다. 2. 그러나 모든 표본 통계값이 그렇듯이 표본 통계량은 추정값으로 오차를 ..
확률 기본 개념 경우의 수 : 내가 관심을 가지는 사건 ex. 동전을 던져서 앞면이 나온다. 확률 : 경우의 수 빈도수 놀이, 내가 보고자하는 경우의 수 / 전체 일어날 수 있는 경우의 수 ex. '동전을 8번 던지면 과연 앞면이 몇번 나올까' 를 표현할 때 확률분포 (分布) : 모집단 혹은 표본집단에서 여러 경우의 수에 대한 각 확률을 표 형태로 표현한 것. 즉, 확률변수에 따라 확률이 어떻게 흩어져 있는지 표현한 것이다. 사전정의 : 확률이 흩어져 퍼져있는 것 한자풀이 : 확률이 나누어진 것이 퍼져있다. 확률변수 : 확률질량 함수, 확률밀도함수, 연속확률함수 등의 확률분포함수 f(x)에서 x에 대응하는 값을 의미한다. 즉, 어떤 분포에서 각 사건(확률X)에 대응된다. 확률(질량)함수 : [어떤 분포]에서 [어떤 사건..
사람들이 선형회귀에 대해 잘못 알고있는 점 선형회귀를 코딩으로 접할 때마다 어떤 과정과 어떤 원리로 동작하는지 파악하려 했다. 그리고 선형회귀를 접한지 1년이 지난 지금, 선형대수, 코딩, 통계의 개념을 통해 흩어져 있던 퍼즐을 드디어 맞췄다. 잘못된 개념으로 풀이하는 정보가 넘쳐났고, 찾아보더라도 파편적으로 공부했기 때문에 오래 걸렸던 것 같다. 그러니 한편으로는 나처럼 많은 사람들이 계속 잘못 알 수도 있겠다 라고 생각된다. 관련된 내용을 항목별로 나눠 적어보겠다. 1. 숫자인 데이터면 컴퓨터는 선형모델을 만든다. : 통계적으로 선형회귀 가정에는 선형성, 독립성, 정규성, 등분산성의 4가지 조건이 존재한다. 그래서 이 가정을 만족하지 않다면 선형회귀모델이 만들어지지 않기 때문에 모델이 만들어졌다면 이 모델은 어쨌든 유효하긴 하고, 파라미터 조..
Python_generator 결과만 두고 보면 'for제어문'과 같다고 보는게 맞다. -서로 동일하게 보되, generator은 객체로서 사용 라이브러리에 따라 Return값이 다를 수 있음만 인지 와 은 서로 같다라고 생각하고 출발하는 것이 이해하기 쉽다. def generator(n): i = 0 while i < n: yield i i += 1 for x in generator(5): print(x) for x2 in range(5): print(x2) print(x,x2) 두 제어문 모두 1,2,3,4를 출력하며 마지막 메모리에 있는 값도 x=x2=4 동일하다. 그럼 왜 generator를 쓰는 것인가. 눈으로 직접 확인 가능한 분명한 차이 - 기본적인 제어문에서는 in 다음에는 '배열'구조만 받는다. - 그러나 genera..