'AI/ML basic' 카테고리의 글 목록

Spectral Theorem : ML

일반적인 Eigen Vecter들은 서로 Orthogonal 할 필요가 없음비스듬히 미는 변환(Shear)에서 변하지 않는 축(고유벡터)들이 90도가 아니라 30도나 45도로 좁게 모여 있을 수도 있다. Linearly Independent는 맞지만 Orthogonal일 필요는 없음. 하지만 Symmetric Matrix 을 만족하는 경우 항상 Orthogonal 하며 이를 Spectral Theorem 이라 부름 Spectral Theorem [Linear Algebra] Lecture 25 대칭 행렬(Symmetric Matrix)과 스펙트럼 정리(Spectral Theorem)이번 강의에서는 대칭 행렬(Symmetric Matrix)에 대해 이야기 하도록 하겠다. 지난 강의 에서 간략히 배우긴 했..

format_list_bulleted AI/ML basic
· 2025. 12. 11.

Eigenvalues, Eigenvectors : ML

Vector\begin{bmatrix}x \\y \\z\end{bmatrix} 원점(0,0)에서 출발하는 화살표공간상의 **한 지점(Point)**을 콕 찍는 것 Matrix\begin{bmatrix} a & \cdots & b \\ \vdots & \ddots & \vdots \\ c & \cdots & d \end{bmatrix}모눈종이(Grid) 전체를 움직이는 함수행렬을 곱한다는 것은 공간을 찌그러뜨리고, 늘리고, 회전시키는 행위 Determinant $$ \mathrm{det}(A) = ad - bc $$ 원래 넓이 1이었던 정사각형이 변형 후에 넓이가 얼마가 되었는지를 계산하는 것 Eigenvectors, Eigenvalues$$ Ax = \lambda x $$좌변: 행렬 A가 벡터 x를 ..

format_list_bulleted AI/ML basic
· 2025. 12. 11.

Activation : ML의 관점에서

들어가며신경망에서 활성화 함수(Activation Function)는 단순히 비선형성을 추가하는 도구 이상의 의미를 가집니다. 이는 네트워크가 입력 공간을 어떻게 분할하고, 특징을 어떻게 표현하며, 그래디언트가 어떻게 전파되는지를 결정하는 핵심 요소입니다. 이 글에서는 머신러닝의 관점에서 활성화 함수들을 깊이 있게 분석하고, 특히 ReLU의 기하학적 의미를 중심으로 실전 인사이트를 제공합니다.1. 활성화 함수의 본질: 왜 필요한가?선형 변환만으로는 표현력이 제한됩니다. 여러 개의 선형층을 쌓아도 결국 하나의 선형 변환으로 표현되기 때문입니다:f(x) = W₃(W₂(W₁x)) = (W₃W₂W₁)x = Wx활성화 함수는 이 선형성을 깨뜨려 복잡한 비선형 패턴을 학습할 수 있게 만듭니다.2. 주요 활성화 함수..

format_list_bulleted AI/ML basic
· 2025. 10. 25.

Standardization : ML의 관점에서

Standardization (표준화)1. 개념표준화는 확률변수 x의 평균을 0, 분산을 1로 만드는 변환이다.데이터의 단위나 스케일 차이를 제거하여 비교 가능하게 만든다.$$z = \frac{x - \mu}{\sigma}$$여기서 $\mu = \mathbb{E}[x], \sigma = \sqrt{\text{Var}(x)}$이다. 2. 표준화 후 특성$$\mathbb{E}[z] = 0, \quad \text{Var}(z) = 1$$즉, 평균이 0이고 분산이 1인 표준형 변수로 변환된다. 3. 역변환표준화된 변수 z를 다시 원래 단위로 복원할 때는 다음을 사용한다.$$x = \mu + \sigma z$$ 4. 다변량 확장벡터 $x \in \mathbb{R}^D$가 평균 벡터 $\mu$, 공분산 행렬 $\S..

format_list_bulleted AI/ML basic
· 2025. 10. 24.

[논문리뷰] Robust Speech Recognition via Large-Scale Weak Supervision

whisper 논문 Bibliographic InfoAuthors: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya SutskeverYear: 2022 (arXiv:2212.04356v1)Title: Robust Speech Recognition via Large-Scale Weak SupervisionVenue: arXiv preprint (OpenAI Technical Report)Problem Statement기존의 음성 인식(ASR) 시스템은 대규모 비지도(pretraining) 학습으로 강력한 오디오 인코더를 만들 수 있었으나,여전히 작업별 파인튜닝이 필요하고,도메인 전이(robustness) 에 취약하며,..

format_list_bulleted AI/ML basic
· 2025. 10. 24.

Linear algebra : ML의 관점에서

Affine function식$$f([z_1,\dots,z_D]) \;=\; \phi_1 z_1 + \cdots + \phi_D z_D$$여기에 상수항(바이어스) $\phi_0$를 더하면$$f([z_1,\dots,z_D]) \;=\; \phi_0 + \sum_{d=1}^D \phi_d z_d .$$이는 엄밀히는 affine 함수이지만, 머신러닝에서는 관습적으로 linear 이라고 부릅니다. 벡터 표기로 쓰면:$$f(\mathbf{z}) = \phi_0 + \phi^\top \mathbf{z}, \quad \phi\in\mathbb{R}^D,\;\mathbf{z}\in\mathbb{R}^D.$$ 구분수학적 정의수식 형태공간적 의미Linear function (선형)원점을 지나는 함수$f(\mathbf{..

format_list_bulleted AI/ML basic
· 2025. 10. 18.

Subspace Transformation : ML의 관점에서

각 layer는$$h_{l+1} = f(W_l h_l + b_l)$$형태로 입력 $h_l$ 의 subspace를 다른 형태의 subspace로 매핑한다. Layer별 “행렬 조작”의 해석Layer 유형행렬 형태수학적 조작공간적 의미결과 Subspace 변화넓게 보기 해야함, 총 5개 Layer 유형 행렬 형태수학 식공간적 의미결과 Subspace 변화Linear / Fully Connected$W \in \mathbb{R}^{d_{out}\times d_{in}}$$y = W x + b$일반 선형 변환 (회전 + 축소 + 확대 + 투영)입력 공간을 다른 subspace로 사상 (projection)Convolution [CNN]$W_{k} \in \mathbb{R}^{C_{out}\times C_{i..

format_list_bulleted AI/ML basic
· 2025. 10. 18.

Determinant and Trace : ML의 관점에서

Determinant [행렬식]수학적 정의행렬 $A \in \mathbb{R}^{n \times n} $ 의 determinant는 다음과 같이 정의됩니다. $$|A| = \det(A) = \prod_{i=1}^n \lambda_i$$즉, 모든 고유값[eigenvalues]의 곱입니다.이 값은 행렬이 공간의 부피[volume] 를 얼마나 바꾸는지를 의미합니다. 기하학적 의미$|A| > 1$: 공간 부피 확대 → 입력 벡터들의 노름 증가$|A| : 공간 부피 축소 → 입력 벡터들의 노름 감소$|A| = 0$: 일부 방향이 완전히 사라짐 → singular matrix (비가역)즉, determinant는 "행렬이 공간을 얼마나 ‘압축 또는 확장’시키는가"를 측정합니다. 딥러닝에서의 활용 Normali..

format_list_bulleted AI/ML basic
· 2025. 10. 18.

Eigenspectrum : ML의관점에

기본 정의 — 행렬이 공간을 어떻게 변형시키는가행렬 $A \in \mathbb{R}^{D \times D}$ 는 벡터 공간을 회전, 축소, 확장, 반사시키는 선형 변환이다.이를 다음과 같이 표현할 수 있다:$$y=Ax$$단위 벡터 집합 $\{ x \in \mathbb{R}^D : \|x\|_2 = 1 \}$를 A로 변환하면결과는 D차원 타원체[ellipsoid] 가 된다. 특이값[Singular Values]의 기하학적 의미타원체의 각 축의 길이는 행렬의 특이값[singular values] 로 정의된다.이를 SVD[특이값 분해]로 표현하면:$$A = U \Sigma V^\top$$여기서$U,V$ : 직교 행렬 (rotation)$\Sigma = \text{diag}(\sigma_1, \sigma_2, ..

format_list_bulleted AI/ML basic
· 2025. 10. 18.

Norm : ML의 관점에서

Norm의 기본 정의 벡터나 행렬의 ‘크기[magnitude]’ 또는 ‘길이[length]’를 측정하기 위해 사용하는 것이 노름[Norm]이다.노름은 단순히 수학적 거리 개념을 확장한 것으로, 머신러닝에서는 파라미터의 크기 제어, 손실함수의 정규화, 학습 안정성 분석 등에 매우 중요하다. 벡터 ℓp 노름 정의벡터 $z = (z_1, z_2, \dots, z_D)$에 대해 ℓp 노름은 다음과 같이 정의된다: $$\| z \|_p = \left( \sum_{d=1}^D |z_d|^p \right)^{1/p}, \quad p > 1$$ 특히 자주 쓰이는 값은 다음과 같다.p=1: 절댓값의 합 (L1 norm)p=2: 유클리드 거리 (L2 norm)$p=\infty$: 절댓값 중 최댓값 (Max norm) ..

format_list_bulleted AI/ML basic
· 2025. 10. 18.

Lipschitz continuity : ML의 관점에서

정의 [Definition]함수 $f: \mathbb{R}^n \to \mathbb{R}^m$ 가 Lipschitz 연속이라 함은 어떤 상수 $\beta > 0$ 가 존재하여 $$\|f(z_1) - f(z_2)\| \le \beta \|z_1 - z_2\|, \quad \forall z_1, z_2 \in \mathbb{R}^n$$를 만족하는 경우입니다. 기본 정리들 [Proof 중심] 1. 미분 가능한 함수의 Lipschitz 상수$f$가 미분 가능하고 Jacobian $J_f(z)$이 존재한다고 하면,$$\|f(z_1)-f(z_2)\| \le \sup_{z}\|J_f(z)\|_2 \cdot \|z_1-z_2\|.$$따라서$\beta = \sup_z \|J_f(z)\|_2$ 가 Lipschit..

format_list_bulleted AI/ML basic
· 2025. 10. 18.