0%

1.高数

参考:https://www.bilibili.com/video/BV1mM411r7ko?p=1&vd_source=260d5bbbf395fd4a9b3e978c7abde437

唐宇迪:机器学习数学基础

方向导数和梯度的直观理解

动画带你理解偏导数和梯度

如何通俗地解释梯度下降法

[TOC]

1.1 函数

表示量与量之间的关系:$A=\pi r^2$

一组输入输出关系:一组输入唯一对应一组输出

image-20230120102416344

1.1.1 函数分类

输入是否与时间有关

  • 是:动态函数
  • 否:静态函数

image-20230120103346066

输入是否为标量

  • 是:一元函数
  • 否:多元函数

image-20230120104022678

1.1.2 常见函数

指/对数函数

$f(x)=e^x$

image-20230724130948091

$f(x)=log(x)$

image-20230724132613642

分段函数

原函数&反函数

原函数 $h=h(t)$ :$h=\frac{1}{2}gt^2$

反函数 $t=t(h)$ :$t=\sqrt{\frac{2h}{g}}\quad/\quad t=-\sqrt{\frac{2h}{g}}(需要附加条件,才能确定具体反函数)$

sigmod函数

$s(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1},x\in (-\infty,+\infty),y\in (0,1)$

image-20230724130809468

Relu函数(非负函数)

$f(x)=x^+=max\{0,x\}$

  • 无梯度消失问题

image-20230724130436756

复合函数

$(g\circ f)(x)$ 表示 $g(f(x))$ ——通道

image-20230120105614465

向量到张量

$\vec{a}=\left(\begin{aligned}\sigma_1\\\sigma_2\\\sigma_3\end{aligned}\right),\vec{b}=\left(\sigma_1’,\sigma_2’,\sigma_3’\right)$

image-20230120115714328

张量:

image-20230120123546392

1.1.3 性质

奇偶性

  • 关于y轴对称,$f(x)=f(-x)$ ,偶函数
  • 关于原点对称,$f(-x)=-f(x)$,奇函数

周期性

$f(x+T)=f(x)$

单调性

1.2 极限

1.2.1 数列极限

$a_n$ 同项

  • 等差数列:$a_n=a_1+(n-1)q$ ,$S_n=na_1+\frac{n(n-1)q}{2}$

  • 等比数列:$a_n=a_1q$ ,$S_n=\frac{a_1-a_nq}{1-q}=\frac{a_1(1-q^n)}{1-q}$

数列的收敛表示为:

$\lim_\limits{n\rightarrow \infty} a_n=A$ 或 $a_n\rightarrow A(n\rightarrow \infty)$

eg:

$\lim_\limits{n\rightarrow \infty}\frac{1}{3^n}=0$ ,$\lim_\limits{n\rightarrow \infty}=\frac{n}{n+1}=1$

$\lim_\limits{n\rightarrow \infty}2^n=\infty$ 发散

1.2.2 函数极限

$\lim_\limits{x\rightarrow +\infty}e^{-x}=0$

image-20230724130046717

$\lim_\limits{x\rightarrow +\infty}\frac{1}{x}=0$

image-20230724131530444

$\lim_\limits{x\rightarrow +\infty}arctanx=\frac{\pi}{2}$

image-20230724130339631

极限定义

左右极限

函数在左半邻域 $(x_0-\sigma,x_0)$,右半邻域 $(x_0,x_0+\sigma)$ 有定义

左极限:$\lim_\limits{x\rightarrow x_0^-}f(x)=A$ / $f(x)\rightarrow A(x\rightarrow x_0^-)$ / $f(x-x_0)=A$

右极限:$\lim_\limits{x\rightarrow x_0^+}f(x)=A$ / $f(x)\rightarrow A(x\rightarrow x_0^+)$ / $f(x+x_0)=A$

极限

函数在 $x_0$ 的邻域内有定义,且左极限=右极限 $\lim_\limits{x\rightarrow x_0}f(x)=A$ 或 $f(x)\rightarrow A(x\rightarrow x_0)$

充要条件:$\lim_\limits{x\rightarrow x_0^-}f(x)=\lim_\limits{x\rightarrow x_0^+}f(x)=A$

eg:

由于 $\lim_\limits{x\rightarrow 0^-}f(x)=-1\neq \lim_\limits{x\rightarrow 0^+}f(x)=1$ ,故 $\lim_\limits{x\rightarrow 0}f(x)$ 不存在

1.2.3 无穷大

表示无限增大,没有上界(收敛点)

无穷大与无穷小关系:在x的同一变换过程中, $f(x)=\infty\Rightarrow \frac{1}{f(x)}=0$

1.2.4 无穷小

以零为极限($x\rightarrow a$ 时,$\lim_\limits{x\rightarrow a}f(x)=0$)

性质

  • 有限个无穷小的和、积是无穷小

    无穷小个无穷小未必是无穷小

    • $\lim_\limits{n\rightarrow \infty}\frac{1}{n^2}+\frac{2}{n^2}+\cdots+\frac{n}{n^2}=\lim_\limits{n\rightarrow \infty}\frac{\frac{n(n+1)}{2}}{n^2}=\frac{1}{2}$
  • 有界变量x无穷小 $\iff$ 无穷小

  • 无穷小的商未必无穷小

    $\lim_\limits{x\rightarrow 0}\frac{x}{2x}=\frac{1}{2}$ ,$\lim_\limits{x\rightarrow 0}\frac{2x}{x^2}=\infty$

  • 极限有无穷小的充要条件:$\lim_\limits{x\rightarrow x_0}f(x)=A\iff A+\alpha(x)$ ,$\alpha(x)$ 为 $x\rightarrow x_0$ 时的无穷小

无穷小比较

$\alpha(x),\beta(x)$ 为无穷小

  • $\lim_\limits{x\rightarrow x_0}\frac{\beta(x)}{\alpha(x)}=0,\beta(x)为\alpha(x)的高阶无穷小$
  • $\lim_\limits{x\rightarrow x_0}\frac{\beta(x)}{\alpha(x)}=\infty,\beta(x)为\alpha(x)的低阶无穷小$
  • $\lim_\limits{x\rightarrow x_0} \frac{\beta(x)}{\alpha(x)}=C\neq 0,\beta(x)与\alpha(x)为同阶无穷小$

1.2.5 连续性

设 $f(x)$ 在x的邻域内有定义,当 $\Delta x\rightarrow0$ ,有 $\Delta y\rightarrow 0$,则 $f(x)$ 在 $x_0$ 处连续,$\lim_\limits{\Delta x\rightarrow 0}\Delta y=\lim_\limits{\Delta x\rightarrow0}(f(x+\Delta x)-f(x))=0$

RECTIFY_IMG_20230724_174049_1

函数 $f(x)$ 在 $x_0$ 处连续,三个条件都满足 :

  • 在 $x_0$ 处有定义
  • $\lim_\limits{x\rightarrow x_0}f(x)$ 存在
  • $\lim_\limits{x\rightarrow x_0}f(x)=f(x_0)$ 极限=函数值

1.2.6 间断点

$f(x)$ 在 $x=x_0$ 处不连续,则 $x_0$ 处为 $f(x)$ 的间断点,以下条件满足一个即为间断点

  • $f(x)$ 在 $x_0$ 处无定义
  • $\lim_\limits{x\rightarrow x_0}f(x)$ 不存在
  • $\lim_\limits{x\rightarrow x_0}f(x)\neq f(x_0)$

分类

第一类间断点:$x\rightarrow x_0$ 时,$f(x)$ 左右极限都存在

  • 跳跃间断点:$f(x_0-0)$ 与 $f(x_0+0)$ 都存在但不相同
  • 可去间断点:$\lim_\limits{x\rightarrow x_0}f(x)$ 存在但 $\neq f(x_0)$

第二类间断点:至少一侧极限不存在

eg:

$f(x)=\frac{x^2-1}{x^2-3x+2}$ ,在 $x=1,2$ 处无定义,故不连续

$\lim_\limits{x\rightarrow 1^+}f(x)=\lim_\limits{x\rightarrow 1^+}\frac{x+1}{x-2}=-2$ ,$\lim_\limits{x\rightarrow 1^-}f(x)=\lim_\limits{x\rightarrow 1^-}\frac{x+1}{x-2}=-2$ ,所以 $x=1$ 为可去间断点

$\lim_\limits{x\rightarrow 2^-}f(x)=\lim_\limits{x\rightarrow 2^-}\frac{x+1}{x-2}=-\infty$ ,$\lim_\limits{x\rightarrow 2^+}f(x)=\lim_\limits{x\rightarrow 2^+}\frac{x+1}{x-2}=+\infty$ ,所以 $x=2$ 为第二类间断点

1.3 导数

表示平均变化率的极限 ,$\lim_\limits{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x}=\lim_\limits{\Delta x\rightarrow 0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}$ ,记为 $f’(x)$

1.3.1 运算律

$(u\pm v)’=u’\pm v’$

$(\frac{u}{v})’=\frac{u’v-uv’}{v^2}(v\neq 0)$

$(uv)’=u’v+uv’$

$(cu)’=cu’$

$(\frac{c}{v})’=-\frac{cv’}{v^2}$

1.3.2 导数的几何意义

$\lim_\limits{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x}$

RECTIFY_IMG_20230724_174526_1

1.3.3 可微

$y=f(x)$ 在 $x_0$ 的某邻域内有定义,$x+\Delta x\in (x_0-\sigma,x_0+\sigma)$ ,若 $\Delta y=f(x_0+\Delta x)-f(x_0)$ 可表示为 $\Delta y=A\Delta x+o(x)$ ,则称 $y=f(x)$ 在 $x_0$ 处可微,记为 $dy=A\Delta x$

几何意义:

RECTIFY_IMG_20230725_111016

  • dy:切线上纵坐标的增量

若 $y=f(x)$ 可微,则有 $\Delta y-dy=o(\Delta x)$

1.3.4 二元函数的导数

一元函数的导数:$y=f(x)$ ,$y’(x)=f’(x)$ ,只随一个变量x变化

二元函数导数:$z=f(x,y)$ ,$z=\left\{\begin{aligned}&随x变\\&随y变\\&随x,y变\end{aligned}\right.$

偏导(随一个变量变)

$z=f(x,y)$ 在 $(x_0,y_0)$ 的某个邻域内有定义,$y=y_0$ 时,$f(x,y_0)$ 在 $x=x_0$ 处可导,即 $\lim_\limits{\Delta x\rightarrow x_0}\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}=A$ ,则 $z=f(x,y)$ 在 $(x_0,y_0)$ 处关于 $x$ 的偏导为 $A$ 。记为 $f_x(x_0,y_0)$ , $\frac{\partial z}{\partial x}\vert_{y=y_0,x=x_0}$

image-20230110194345101

$\frac{\partial u}{\partial x}\vert_{x=x_0}$几何意义

曲线 $\Gamma:\left\{\begin{aligned}&z=f(x,y)\\&x=x_0\end{aligned}\right.$ 在 $x=x_0$ 处的切线:

  • $\Gamma$ :平面 $\Pi$($x=x_0$)与 $z=f(x,y)$ 交线为 $\Gamma$

随 $y$ 的不同取值,斜率有不同取值

image-20230111184858627

image-20230111184926039

image-20230111185700201

image-20230111185508325

eg

$f(x,y)=x^2+3xy+y^2$ ,在 $(1,2)$ 处偏导,$f_x=2x+3y$ ,$f_y=3x+2y$ ,$f_x(1,2)=8$

$y(x)\vert_{y=2}=f(x,2)=x^2+6x+2,y’(x)=2x+6,y’(1)=8$

方向导(沿方向向量)

方向

image-20230111183604290

$u=f(x,y,z)$ 在 $D\in R^3$ 内有定义,$R^3$ 内有一个确定点 $P_0(x_0,y_0,z_0)$ 和一个动点 $P(x,y,z)$ 确定方向向量 $\vec{l}=(a,b,c)\xRightarrow{单位化}\vec{l^0}=\left(\frac{a}{\sqrt{a^2+b^2+c^2}},\frac{b}{\sqrt{a^2+b^2+c^2}},\frac{c}{\sqrt{a^2+b^2+c^2}}\right)=(cos\alpha,cos\beta,cos\gamma)$

方向向量 $\vec{l}=\vec{P_0P}=(x-x_0,y-y_0,z-z_0)$ ,模长 $\vert \vec{l}\vert=\vert P_0P\vert=\sqrt{\Delta x^2,\Delta y^2,\Delta z^2}=t$

方向余弦

RECTIFY_IMG_20230725_111340

方向导

image-20230111162927318

$\lim_\limits{\Delta 自变量\rightarrow 0}=\frac{\Delta 因变量}{\Delta 自变量}$

若 $\lim_\limits{\Delta l\rightarrow 0}\frac{f(x_0+\Delta lcos\alpha,y_0+\Delta lcos\beta,z_0+\Delta lcos\gamma)-f(x_0,y_0,z_0)}{\Delta l}$ 存在,则称其为 $u=f(x,y,z)$ 在 $P(x_0,y_0,z_0)$ 沿 $\vec{e_l}$ 方向的方向导数,记为 $\frac{\partial u}{\partial l}\vert_{P_0}$ ,$\frac{\partial f}{\partial l}\vert_{P_0}$

方向导几何意义

曲线 $\Gamma$ 在 $P(x_0,y_0)$ 处切线

  • $\Gamma$ :过方向向量 $\vec{e_l}=\left(\frac{x-x_0}{\sqrt{(x-x_0)^2+(y-y_0)^2}},\frac{y-y_0}{\sqrt{(x-x_0)^2+(y-y_0)^2}}\right)$ 做 $xoy$ 面的垂面 $\Pi$ 与 $u=f(x,y,z)$ 有交线 $\Gamma$

    image-20230111162914732

    $P(x,y)$ 沿 $\vec{e_l}$ 变化,对应不同的坐标点 P,方向导为 $z=f(x,y)$ 在 $P_0$ 点切线

Screenshot_2023_0111_163749

特殊方向导

沿 $x$ 轴方向 $\vec{e_l}=(1,0)$ ,$\frac{\partial f}{\partial l}=\lim_\limits{\Delta l\rightarrow 0}\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\sqrt{\Delta x^2}}=f_x(x_0,y_0)$

沿 $y$ 轴方向 $\vec{e_l}=(0,1)$ ,$\frac{\partial f}{\partial l}=\lim_\limits{\Delta l\rightarrow 0}\frac{f(x_0,y_0+\Delta y)-f(x_0,y_0)}{\sqrt{\Delta y^2}}=f_y(x_0,y_0)$

方向导计算

image-20230819164630893

若 $u=f(x,y)$ 在 $P_0(x_0,y_0)$ 处可微,则 $f$ 在 $P_0$ 处沿任一方向导都存在,且有

eg:

求 $z=xe^{2y}$ 在 $P(1,0)$ 处沿 $P(1,0)$ 到 $Q(2,-1)$ 方向的方向导

$\vec{l}=\overrightarrow{PQ}=(1,-1)$ ,方向向量 $\vec{e_l}=\left(\frac{\sqrt{2}}{2},-\frac{\sqrt{2}}{2}\right)$ ,方向余弦 $cos\alpha=\frac{\sqrt{2}}{2},cos\beta=-\frac{\sqrt{2}}{2}$

$\frac{\partial z}{\partial l}=\frac{\partial z}{\partial x}cos\alpha+\frac{\partial z}{\partial y}cos\beta=\frac{\sqrt{2}}{2}\frac{\partial z}{\partial x}-\frac{\sqrt{2}}{2}\frac{\partial z}{\partial y}=\frac{\sqrt{2}}{2}e^{2y}-\frac{\sqrt{2}}{2}2xe^{2y}=\frac{\sqrt{2}}{2}e^{2y}(1-2x)$

在 $P(1,0)$ 的方向导为 $\frac{\partial z}{\partial l}\vert_{(1,0)}=-\frac{\sqrt{2}}{2}$

1.3.5 梯度 gradient

使方向导数最大的方向向量:

  • $z=f(x,y)$ 沿梯度方向递增(假设方向向量的起点为原点)

方向导:

当 $\theta=0$ 时,有 $\frac{\partial z}{\partial l}\vert_{max}=\vert \bigtriangledown f\vert$

  • 某一方向上的方向到为 $\Gamma$ 的切线

  • 某一点沿着不同方向有不同的方向导,方向导最大的方向为梯度方向 $\bigtriangledown f\overset{\Delta}{=}(f_x’,f_y’)$ ,且为 $\vert \bigtriangledown f\vert=\sqrt{(f_x’)^2+(f_y’)^2}$

  • 梯度方向与 $f$ 等值线垂直

    如:$z=x^2+y^2$

    image-20230111185838612

梯度下降法(方向导与极值)

找极小值:

image-20230112090617813

  1. 方向: $梯度反方向(-\bigtriangledown f)$

    image-20230112090642280

  2. 大小

    image-20230112090718130

    image-20230112090733496

  3. 终止条件: $\vert \bigtriangledown f\vert\le \epsilon,梯度随z下降,在最低点 \vert \bigtriangledown f\vert\approx 0$

    image-20230112090839014

  • $z=f(x,y)$ 沿梯度方向递增,沿梯度反方向递减

已知导数为沿曲线 $\Gamma$ 运动的点的切线

  • 方向向量:运动方向
  • 方向向量 $\vec{e_l}$ 上的点:$\Gamma$ 上的点

根据可微,$-\bigtriangledown f=\frac{\Delta f}{\vec{e_l}}\iff \frac{z_1-z_0}{\vec{e_l}}=-\bigtriangledown f\Rightarrow z_1-z_0=-\bigtriangledown f\cdot \vec{e_l}=-\bigtriangledown f\Rightarrow z_1-z_0=-\bigtriangledown f$

eg:

假设 $z=f(x,y)=x^2+y^2$ ,$z_0=f(1,2)$ 梯度 $\bigtriangledown f=\left(\frac{\partial z}{\partial x},\frac{\partial z}{\partial y}\right)=(2x,2y)$

$z_1=z_0-\bigtriangledown f\vert_{(1,2)}=f(1,2)-f(2,4)=f(-1,-2)$

$z_2=z_1-\bigtriangledown f\vert_{(-1,-2)}=f(-1,-2)-f(-2,-4)=f(1,2)$

会进入循环,所以需要引入学习率 $\eta$ 来控制步长,即 $z=z’-\eta \bigtriangledown f$

$\eta > 1$ ,$z$ 上升

RECTIFY_IMG_20230726_104402_1

$\eta = 1$ ,$z$ 振荡

RECTIFY_IMG_20230726_104433_1

$\eta < 1$ ,$z$ 下降。且 $\eta$ 越大,下降速度越快

  • $\eta = 0.02$

    RECTIFY_IMG_20230726_104449_1

  • $\eta = 0.2$

    RECTIFY_IMG_20230726_104515_1

eg:

有 $u=f(x,y)=x^2+2y^2$ ,$(x_0,y_0)=(-3.5,-3.5),\eta=0.1$

RECTIFY_IMG_20230726_104828_1

1.4 微积分

用于求解速度、面积、体积等可累积量

1.4.1 基本思想

以直代曲

RECTIFY_IMG_20230726_112453_1

在 $[a,b]$ 间插入若干点,得到 $n$ 个小区间,每个小矩形面积 $A_i=f(\xi_i)\Delta x_i\Rightarrow A_{(a,b)}=\sum_\limits{i=1}^n f(\xi_i)\Delta x_i$

设 $\lambda$ 为小区间的最大值,$A=\lim_\limits{\lambda\rightarrow 0}\sum_\limits{i=1}^n f(\xi_i)\Delta x_i$

记为 $\int_{a}^b f(x)dx$

微分与导数关系

RECTIFY_IMG_20230726_142556_1

$dy$ :切线增量

$\Delta y$ :曲线增量

导数(切线斜率):$f’(x)=\frac{dy}{dx}$

$\Delta y=dy+o(\Delta x)$

1.4.2 定积分

定义

image-20230112102644754

函数可积定义:$f(x)$ 在 $[a,b]$ 上的定积分存在时,则称 $f(x)$ 在 $[a,b]$ 可积

几何意义:面积A

RECTIFY_IMG_20230726_144642_1

定义计算定积分

$\int_0^1x^2dx$ :将 $[0,1]$ n等分,分点为 $x_i=\frac{i}{n},(i=1,2,\cdots,n)$

小区间 $[x_{i-1},x_i]$ 的长度 $\Delta x_i=\frac{1}{n},(i=1,2,\cdots,n)$

取 $\xi_i=x_i$ ,$\sum_\limits{i=1}^n f(\xi_i)\Delta x_i=\sum_\limits{i=1}^n\xi_i^2\Delta x_i=\sum_\limits{i=1}^n(\frac{i}{n})^2\frac{1}{n}=\frac{1}{n^3}\sum_\limits{i=1}^ni^2=\frac{1}{n^3}\frac{n(n+1)(2n+1)}{6}$

$\vert \Delta x\vert\rightarrow 0\Rightarrow n\rightarrow \infty$ ,$\lim_\limits{n\rightarrow \infty}\frac{(n+1)(2n+1)}{6n^2}=\frac{1}{3}\Rightarrow \int_0^1x^2dx=\sum_\limits{i=1}^nf(\xi_i)\Delta x_i=\frac{1}{3}$

定积分性质

$\int_{a}^b[f(x)\pm g(x)]dx=\int_a^bf(x)dx\pm \int_a^bg(x)dx$

$\int_a^bkf(x)dx=k\int_a^bf(x)dx,(k为常数)$

$\int_a^b{f(x)}dx=\int_a^cf(x)dx+\int_c^bf(x)dx$

若 $[a,b]$ 上,$f(x)\ge 0\Rightarrow \int_a^bf(x)dx\ge 0,(a<b)$

定理

积分第一中值定理:$f(x)$ 在 $[a,b]$ 上连续,则在 $[a,b]$ 上至少存在一点 $\xi$ ,使 $\int_a^b f(x)dx=f(\xi)(b-a)$

RECTIFY_IMG_20230726_150931_1

积分上限函数:$f(x)$ 在 $[a,b]$ 上连续,对于定积分 $\int_a^x f(x)dx$ 每个取值 $f(x)$ 有一个值 $\Phi(x)=\int_a^x f(t)dt$

N-L公式

$F(x)$ 连续且未 $f(x)$ 在 $[a,b]$ 上原函数,$\int_{a}^bf(x)dx =F(b)-F(a)$

RECTIFY_IMG_20230726_154441_1

几何意义

$F(b)-F(a)=\sum\Delta y_i$

当 $\Delta x\rightarrow 0$ 时,有 $dy_i\approx \Delta y_i,F’(x)=\frac{dF(x)}{dx}=\frac{dy}{dx}$

$\therefore\quad F(b)-F(a)=\sum\Delta y_i=\sum dy_i=\sum f(x)dx=\int_a^bf(x)dx$

基本公式

$\underbrace{\int_{a}^bf(x)dx=f(\xi)(b-a)}_{积分中值定理}=\underbrace{F’(\xi)(b-a)}_{微分中值定理}=F(b)-F(a)$

泰勒公式

以直代曲:多项式代替原函数

常用泰勒公式

RECTIFY_IMG_20230726_171347_1

当 $x\rightarrow 0$ 时,$e^x\approx 1+x$ ,$ln(1+x)\approx x$


$P_n(x)=f(x_0)+f’(x_0)(x-x_0)+f’’(x_0)\frac{(x-x_0)^2}{2!}+f’’’(x_0)\frac{(x-x_0)^3}{3!}+\cdots+f^{(n)}(x_0)\frac{(x-x_0)^n}{n!}$

导数作用

  • 一阶导作用:确定上升/下降趋势

    image-20230726172717550

  • 二阶导作用:确定弯曲方向(凹凸性)

    image-20230726172727667

阶越高,增长速度越快

低阶能更好描述当前点,阶越高在右侧影响越大

RECTIFY_IMG_20230726_172509_1

阶乘作用

在低阶,保证 $x^5,x^6$ 次项作用(高次项) $x+\frac{x^2}{2!}+\cdots+\frac{x^5}{5!}$

在高阶,保证 $x,x^2$ 次项作用(低次项)

若无阶乘,高阶压制低阶,函数呈高次项特性

如:$x^9+x^2$

RECTIFY_IMG_20230726_173222_1

引入阶乘,图像先呈现 $x^2$ 特性,再呈现 $x^9$ 特性

RECTIFY_IMG_20230726_173244_1

$x$ 小时,$\frac{1}{9!}$ 可限制 $x^9$ 项

随 $x$ 增加,$\frac{1}{9!}$ 作用变小,无法再限制 $x^9$

麦克劳林公式

$f(x)=f(0)+f’(0)x+f’’(0)\frac{x^2}{2!}+\cdots+f^{(n)}\frac{x^n}{n!}+f^{(n+1)}(\theta x)\frac{x^{(n+1)}}{(n+1)!},0<\theta < 1$

  • $sinx=f’(0)x-\frac{x^3}{3!}f^{(3)}(0)+\frac{x^5}{5!}f^{(5)}(0)-\cdots=x-\frac{x^3}{3!}+\frac{x^5}{5!}+\cdots+(-1)^{(n-1)}\frac{x^{(2n-1)}}{2n-1}$

    $R_{n+1}=(-1)^{n}\frac{cos(\theta x)}{(2n+1)!}x^{(2n+1)},(0<\theta < 1)$

image-20240223162426350

1.5 求极值

1.5.1 无条件极值

$z=f(x,y)$ 在 $P_0$ 邻域内连续,且有一阶、二阶偏导数,求 $z$ 在邻域内的极值

求解

令$f_x(x,y)=0,f_y(x,y)=0\Rightarrow P_0(x_0,y_0)$

令 $A=f_{xx}(x,y)\vert _{P_0}$ ,$B=f_{xy}(x,y)\vert_{P_0}$ ,$C=f_{yy}(x,y)\vert_{P_0}$

  • $AC-B^2>0$ ,则 $f(x,y)$ 在 $P_0$ 处为极值点
    • $A>0$ ,则为极小值
    • $A<0$ ,则为极大值
  • $AC-B^2<0$ ,则 $f(x,y)$ 在 $P_0$ 处不是极值点
  • $AC-B^2=0$ ,待定

1.5.2 条件极值

$x,y$ 满足 $\varphi(x,y)=0\varphi(x,y)=0$ , 求 $z=f(x,y)$ 的极值

image-20230731175549249

$\varphi(x,y)=0$ 为 $xoy$ 面上的曲线,将 $\varphi(x,y)=0$ 投影到曲面 $z=f(x,y)$ 上,有曲线 $\Gamma(x,y,z)$ 。

在曲线 $\Gamma$ 上找极值点为一个无条件极值问题,故用一个独立参数 $t$ 表示曲线 $\Gamma$ 不受任何约束,即 $\left\{\begin{aligned}x=x(t)\\y=y(t)\end{aligned}\right.$ ,有 $z=\{x(t),y(t)\}\Rightarrow z=z(t)$


极值条件:

显然,有 $\left(\frac{\partial \varphi}{\partial y},-\frac{\partial \varphi}{\partial x}\right)$ 与 $\bigtriangledown \phi=\left(\frac{\partial \varphi}{\partial x},\frac{\partial \varphi}{\partial y}\right)$ 垂直

故可得结论:极值点处满足 $\bigtriangledown z$ 与 $\bigtriangledown \varphi$ 共线,即 $\bigtriangledown z+\lambda \bigtriangledown \varphi=0\Rightarrow \bigtriangledown\left[z(x,y)+\lambda\varphi(x,y)\right]=0$

1.5.3 多条件极值

$u=f(x,y,z,t)$ 在条件 $\varphi(x,y,z,t)=0,\psi(x,y,z,t)=0$ 下的极值,构造函数 $F(x,y,z,t)=f(x,y,z,t)+\lambda_1\varphi(x,y,z,t)+\lambda_2\psi(x,y,z,t)$

eg1

$u=x^3y^2z,x+y+z=12$ ,求最大值

构造拉格朗日函数 $F(x,y,z,t)=x^3y^2z+\lambda(x+y+z-12)=0$

令 $\left\{\begin{aligned}&F_x’=3x^2y^2z+\lambda=0\\&F_y’=2x^3yz+\lambda=0\\&F_z’=x^3y^2+\lambda=0\\&x+y+z=12\end{aligned}\right.\Rightarrow \left\{\begin{aligned}x_0=6\\y_0=4\\z_0=2\end{aligned}\right.$

1.5.4 凹函数与凸函数

已知两点 $(x,f(x))$ ,$(y,f(y))$ ,验证 $f(tx+(1-t)y)\le tf(x)+(1-t)f(y),t\in (0,1]$ ,则 $f(z)$ 为凸函数

image-20230801000218077

设直线 $L(z)$ 为 $Y-f(x)=\frac{f(y)-f(x)}{y-x}(X-x)$

在 $[x,y]$ 中间的任一点横坐标可表示为 $tx+(1-t)y$ ,代入后直线方程可得 $Y=\frac{f(y)-f(x)}{y-x}[tx+(1-t)y-x]+f(x)=\frac{f(y)-f(x)}{y-x}(1-t)(y-x)+f(x)=tf(x)+(1-t)f(y)$

若某一自变量曲线上值 $f(z)$ 小于直线上值 $L(z)$ , 即满足 $f(tx+(1-t)y)\le tf(x)+(1-t)f(y),t\in (0,1]$ ,函数 $f(z)$ 为凸函数

易于沿梯度寻找最优值,作为激活函数

-------------本文结束-------------