Calculus & Optimization

Derivatives, gradients, and optimization methods used to train models.

01

Limits and Continuity: The Foundation of Calculus

Understand limits, continuity, and the epsilon-delta definition — the bedrock on which derivatives, integrals, and optimization are built.

Mar 7, 2026 9 min read
02

Derivatives and Differentiation: Measuring Rates of Change

Master the derivative from first principles — definition, rules, common functions, and how differentiation drives machine learning optimization.

Mar 7, 2026 8 min read
03

Partial Derivatives and Gradients: Calculus in Multiple Dimensions

Learn partial derivatives, the gradient vector, directional derivatives, the Jacobian, and the Hessian — the multivariable toolkit for ML optimization.

Mar 7, 2026 8 min read
04

The Chain Rule and Computational Graphs: The Engine Behind Backpropagation

How the chain rule powers backpropagation — from single-variable compositions to computational graphs and automatic differentiation.

Mar 7, 2026 10 min read
05

Taylor Series and Approximation: Local Models of Complex Functions

Understand Taylor expansions, linearization, quadratic approximation, and Newton's method — the math connecting derivatives to optimization.

Mar 7, 2026 8 min read
06

Gradient Descent: The Workhorse of Machine Learning Optimization

Master gradient descent from first principles — the algorithm, learning rate selection, convergence analysis, and local minima in loss landscapes.

Mar 7, 2026 8 min read
07

Stochastic Gradient Descent: Trading Precision for Speed

Learn SGD, mini-batch methods, momentum, Nesterov acceleration, and learning rate schedules — the practical optimizers that train modern ML models.

Mar 7, 2026 9 min read
08

Adaptive Learning Rate Methods: From AdaGrad to Adam

Understand AdaGrad, RMSProp, Adam, and AdamW — adaptive optimizers that tune per-parameter learning rates for faster, more robust training.

Mar 7, 2026 10 min read
09

Constrained Optimization: Lagrange Multipliers and KKT Conditions

Master Lagrange multipliers, KKT conditions, and duality — the tools for optimization with equality and inequality constraints in ML.

Mar 7, 2026 9 min read
10

Convexity and Convergence Theory: When Optimization Succeeds

Understand convex functions, global vs local optima, convergence rates, and the theoretical guarantees that underpin ML optimization algorithms.

Mar 7, 2026 9 min read
11

Integration and Expectation: The Continuous Side of Probability

From Riemann integrals to Monte Carlo estimation — how integration underpins probability densities, expectations, and marginalizations in ML.

Mar 7, 2026 9 min read
12

Calculus of Variations: Optimizing Over Functions

Learn the Euler-Lagrange equation, variational inference, and the ELBO — how optimizing over functions powers VAEs and Bayesian deep learning.

Mar 7, 2026 8 min read
13

Second-Order and Natural Gradient Methods

Go beyond first-order optimization with Newton's method, Fisher information, natural gradient descent, and K-FAC for deep learning.

Mar 7, 2026 9 min read
14

Numerical Stability in Optimization: Making Training Work in Practice

Master the log-sum-exp trick, gradient clipping, mixed precision, and other techniques that prevent numerical disasters during model training.

Mar 7, 2026 9 min read
15

Non-Smooth Optimization and Proximal Methods

Handle non-differentiable objectives with subgradients, proximal operators, and ADMM — the tools behind L1 sparsity, pruning, and robust losses.

Mar 7, 2026 8 min read
16

Optimization Landscape of Neural Networks: Why Deep Learning Works

Explore loss surface geometry, sharp vs flat minima, mode connectivity, the lottery ticket hypothesis, and why SGD finds generalizable solutions.

Mar 7, 2026 10 min read
17

Implicit Differentiation and Differentiable Programming

Backpropagate through optimization, fixed points, and ODEs — learn implicit differentiation for meta-learning, hyperparameter tuning, and Neural ODEs.

Mar 7, 2026 8 min read
18

Min-Max Optimization: Games, GANs, and Adversarial Training

Master min-max optimization for GANs, adversarial robustness, and RLHF — two-player games where one player minimizes while the other maximizes.

Mar 7, 2026 9 min read