快捷搜索:
您的位置:bv1946伟德入口 > 产品评测 > 夏勇副教授应邀来我校讲学,policy预测的近似方

夏勇副教授应邀来我校讲学,policy预测的近似方

2019-10-11 01:22

6月22日,应数学与信息科学学院邀请,南京师范大学博士生导师高洪俊教授在数学学院南楼s103会议室作了题为“Stochastic strong solutions for stochastic transport equations”的学术报告。学院相关专业的教师、本科生、研究生等40余人聆听了此次报告。

强化学习读书笔记 - 09 - on-policy预测的近似方法

在 YouTube 上找到了慕尼黑工业大学(Technische Universitaet München)计算机视觉组 Daniel Cremers 教授的 Multiple View Geometry 课程。容易理解,收获颇多,写下笔记以巩固所学。

5月27日,应数学与信息科学学院邀请,北京航空航天大学博士生导师韩德仁教授、博士生导师夏勇副教授来我校讲学。数学学院教师和研究生代表40余人聆听了报告。

报告中,高洪俊介绍了一类乘法噪声驱动的随机输运方程的强解的相关内容。对于在空间$L^q(0,T;{ mathcal C}^alpha_b({ mathbb R}^d))$ ($alpha>2/q$)中的漂移系数及在空间$W^{1,r}({ mathbb R}^d)$中的初值,高洪俊给出了随机强解的存在唯一性的证明。同时,高洪俊指出与在同等条件下的确定性的情况相反的是,这类乘法的随机布朗型运动扰动足以促使方程的解适定。对于$alpha 1<2/q$且空间维数高于1的情形,可选择合适的初值条件及漂移系数得到强解的不存在性。此外,若漂移系数属于$L^q(0,T;W^{1,p}({ mathbb R}^d))$可得到随机强解的整体可积性,此结果回答了Fedrizzi 和Flandoli提出的漂移系数在$L^q(0,T;L^p({ mathbb R}^d))$空间中的问题,因而部分地推广了他们早期的结果。

参照

  • Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
  • 强化学习读书笔记 - 00 - 术语和数学符号
  • 强化学习读书笔记 - 01 - 强化学习的问题
  • 强化学习读书笔记 - 02 - 多臂老O虎O机问题
  • 强化学习读书笔记 - 03 - 有限马尔科夫决策过程
  • 强化学习读书笔记 - 04 - 动态规划
  • 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
  • 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
  • 强化学习读书笔记 - 08 - 规划式方法和学习式方法

需要了解强化学习的数学符号,先看看这里:

  • 强化学习读书笔记 - 00 - 术语和数学符号

这一章开始了第二部门 - 近似解决方案

课程的 YouTube 地址为: 。视频评论区可以找到课程所使用课件与练习题的下载地址。

韩德仁以“Alternating direciton methods of multiplier for optimization problems involving nonconvex funtions“为题,详细介绍了非凸函数优化问题的乘子交替方向法。他指出虽然经典的乘子交替方向法已经被广泛的应用于大规模可分离优化问题,包括凸目标方程和非凸目标方程,虽然对于凸问题人们已经做了许多收敛性分析的工作,但是对于非凸问题,收敛性分析方面还有很多工作要做。韩德仁考虑两种非凸函数优化问题,第一种是“强 弱凸模型”,第二种是一般的非凸模型。对于这两种模型,通过使用不同的分析技术,来证明算法的全局收敛性,并进一步分析了收敛速度。

讲座结束后,部分教师与学生结合讲座内容与高洪俊进行了热烈的交流。

近似方法的重要性

我们先看看传统方法中存在的问题:

  • 不适用复杂的环境。主要原因是状态和行动太多,策略需要大量空间来记忆策略价值。
  • 环境可能是不稳定的,过去的经验不能适用于未来的情况。需要一个通用性的方法来更新策略价值。
  • 策略价值是一个数值,缺乏通用性。期望有一个通用的方法来计算策略价值。

所以对近似预测方法的理解是,找到一个通用的方法(hat{v}(s, theta))。
数学表示
[ hat{v}(s, theta) approx v_{pi}(s) \ where \ theta text{ - a weight vector} \ theta doteq (theta_1, theta_2, ..., theta_n)^T ]

解释
近似预测方法是指求策略的状态价值的近似值。
求策略的行动状态价值的近似值叫做近似控制方法(Control Methods)(下一章的内容)。

课程第1章介绍了线性代数的基础,MVG 课程前半部分以线性代数的形式对问题进行建模,将模型是否有解、有多少解转化为矩阵秩的问题。

夏勇以“Efficiently solving total least squares with Tikhonov identical regularization”为题,指出Tikhonov同正则总体最小二乘是处理线性方程组的病态系统,其中数据被噪声污染,所以解决的一个标准方法是把它转化为一个寻找凹形非光滑单变量函数零点的问题,从而可以应用经典的二分搜索和Dinkelbach方法,这使得我们可以将经典的牛顿方法应用于重构问题,它以收敛的二次收敛速度收敛到唯一的根。

专家简介:

近似预测方法的目标

首先,我们需要找到一个判断近似预测方法质量的计算公式。

价值均方误差(Mean Squared Value Error)
[ MSVE(theta) = sum_{s in mathcal{S}} d(s) [v_{pi} - hat{v}(s, theta)]^2 \ where \ d(s) text{ - on-policy distribution, the fraction of time spent in s under the target policy } pi \ ]

  • 在情节性任务中
    [ eta(s) = h(s) sum_{bar{s}} eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall s in mathcal{S} \ d(s) = frac{eta(s)}{sum_{s'} eta(s')} \ where \ eta(s) text{ - the number of time steps spent in state s in a single episode} \ h(s) text{ - time spent in a state s if episodes start in it} ]

  • 在连续性任务中
    [ d(s) = text{ the stationary distribution under } pi \ ]

解释:
(eta(s) = h(s) sum_{bar{s}} eta(bar{s}) sum_{a} pi(a|bar{s})p(s|bar{s}, a), forall s in mathcal{S})
状态s的发生时间(次数) = 在情节中状态s发生在开始的时间(次数) 状态s发生在其它的时间(次数)

1. 线性空间

专家简介:

高洪俊,南京师范大学教授、博士生导师,科技处处长。美国数学评论评论员,Stochastics and Dynamics编委,南京师范大学学报自然科学版副主编,江苏省工业与应用数学学会副理事长,江苏省高校“大规模复杂系统数值模拟”重点实验室副主任,江苏省“青蓝工程”中青年学术带头人,江苏省“333”工程第三层次培养人选,国防科工委科技进步奖一等奖获得者.目前研究兴趣为非线性发展方程和无穷维动力系统,物理、力学和地球科学(Geoscience)中的随机偏微分方程和无穷维随机动力学。已发表包括Adv. Math.、SIAM J. Math. Anal.、J.Differential Equations和中国科学在内的国内外重要期刊论文160多篇。多次主持国家基金项目,参与973项目,目前主持国家自然科学基金重点项目,江苏省自然科学基一项,江苏省青蓝工程科研基金一项。

随机梯度递减方法(Stochastic gradient descend method)

那么如何求(theta)呢?一个常见的方法是通过梯度递减的方法,迭代的求解(theta)。

1.1 线性空间定义

Vector Space 也叫 Linear Space,向量空间或线性空间。线性空间是一个集合加一个数域(一般为实数 $ mathbb{R} $),这个集合需要满足加法与乘法封闭。封闭指集合中的元素经过运算后得到的元素依旧在这个集合中。

这两个封闭的性质用映射表示为:

[ : V times V rightarrow V ]

[ centerdot : mathbb{R} times V rightarrow V]

$ V $ 中元素经过运算,依旧在 $ V $ 中。

韩德仁,北京航空航天大学数学与系统科学学院院长,教授,博士生导师。国家杰出青年基金获得者,入选江苏省333高层次人才培养工程、江苏省“青蓝工程”中青年学术带头人。担任中国运筹学会理事、数学规划分会常务理事;《计算数学》《Journal of the Operations Research Society of China》编委。

(数学与信息科学学院 范丽丽 苗山根)

随机梯度递减算法

Stochastic gradient descend
[ begin{align} theta_{t 1} & doteq theta_{t} - frac{1}{2} alpha nabla [v_{pi}(S_t) - hat{v}(S_t, theta_t)]^2 \ & = theta_{t} alpha [v_{pi}(S_t) - hat{v}(S_t, theta_t)] nabla hat{v}(S_t, theta_t) \ end{align} \ where \ nabla f(theta) doteq left ( frac{partial f(theta)}{partial theta_1}, frac{partial f(theta)}{partial theta_2}, cdots, frac{partial f(theta)}{partial theta_n} right )^T \ alpha text{ - the step size, learning rate} ]

解释
这个方法可以在多次迭代后,让(theta)最优。
(v_{pi}(S_t))是实际值。
(hat{v}(S_t, theta_t))是当前计算值。
随机梯度递减方法通过误差(实际值 - 当前计算值)接近最优值的方法。
比较麻烦的是:如何求(nabla hat{v}(S_t, theta_t))。
传统的方法是求(v_{pi}(s), q_{pi}(s, a)),在近似方法中变成了求(theta, hat{v}(s, theta), hat{q}(s, a,theta))。

1.2 子空间

线性空间存在子空间(Subspace),子空间也是一个线性空间,满足加法与乘法的封闭。子空间与母空间之间的关系是子空间中集合 (W) 是母空间集合 (V) 的真子集,即 $ W subset V $,子空间的数域与母空间的数域完全相等。

由于 $ 0 in mathbb{R} $,所以线性空间一定包含0元(幺元)。

三维空间包含幺元,也就是原点 $ (0, 0, 0)^T $。三维空间的子空间是二维空间,二维空间(平面)也一定包含幺元,所以作为三维空间子空间的平面一定过原点。

夏勇,北京航空航天大学数学与系统科学学院副教授,博士生导师,统计与运筹系系主任,中国运筹学会刊编委,在《Mathematical Programming》《SIAM Journal on Optimization》等国内外期刊发表SCI论文43篇。

蒙特卡洛

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : mathcal{S} times mathbb{R^n} to mathbb{R})

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Generate an episode (S_0, A_0, R_1 ,S_1 ,A_1, cdots ,R_t ,S_t) using class="math inline">(pi)
      For (t = 0, 1, cdots, T - 1)
       (theta gets theta alpha [G_t -hat{v}(S_t, theta)] nabla hat{v}(S_t, theta))

1.3 线性无关与基底

一个向量的集合 $ S = {v_1, dots, v_k} subset V $ 张成的子空间指这些向量的线性组合:

[ textrm{span}(S) = { v in V | v = Sigma_{i = 1}^{k} alpha_i v_i} ]

集合 $ S $ 线性无关(linearly independent)指将这些向量线性组合成0元时所有向量的系数都为0,即:

[ Sigma_{i = 1}^{k} alpha_i v_i = 0 Rightarrow alpha_i = 0 forall i ]

线性组合(Linear Combination)指将所有元素乘以一个实数,然后求和。

如果这些系数中存在不为 0 的数,那么这个集合就叫做线性相关。

线性空间 $ V $ 的基底(Basis)是一集合 $ B = { v_1, dots, v_n } $,这个集合线性无关,并且其中的元素能够张成整个线性空间。

基底 $ S $ 是线性无关向量的最大集合,即在基底 $ S $ 中再增加一个向量,集合会变成线性相关。所以线性空间 $ V $ 中的任意一个向量都可以使用基底线性表示。

基底的三个性质:
假设 $ B $ 与 $ B' $ 是线性空间 $ V $ 的两个基底,

i. $ B $ 与 $ B' $ 中向量的个数相同,向量的个数 $ n $ 称作线性空间 $ V $ 的维度(Dimension)。

ii. 线性空间 $ V $ 中的任意一个向量都可以表示为基底 $ B = { v_1, dots, v_n } $ 的线性组合:
[ v = Sigma^n_{i=1} alpha_ib_i ]

iii. 基底 $ B' $ 中的向量都可以表示为基底 $ B $ 中向量的线性组合:
[ b'_i = Sigma^n_{j=1}alpha_{ji}b_j ]
用矩阵的形式表示这个基底变换(Basis Transform),$ B' = BA $,其中 $ B equiv (b_1, dots, b_n), B' equiv (b'_1, dots, b'_n) $ 将基底行的形式排列,$ A equiv [alpha_{ij}] $ 是一个方阵。

(数学与信息科学学院 汪春峰 裴永刚)

半梯度递减方法(Semi-gradient method)

之所以叫半梯度递减的原因是TD(0)和n-steps TD计算价值的公式不是精确的(而蒙特卡罗方法是精确的)。

1.4 内积与克罗内克积

在线性空间中可以定义内积(Inner Product):

[ <centerdot, centerdot> : V times V rightarrow mathbb{R} ]

内积是一种二元运算,将两个向量映射到实数域内,并且运算满足三条性质:

  1. 线性(Linear):$
  2. 对称(Symmetric):$
  3. 正定(Positive Definite):$

由内积可以定义范数(Norm))

[ |centerdot| : V rightarrow mathbb{R}, |v| = sqrt{<v, v>} ]

与度量(Metric))

[ d : V times V rightarrow mathbb{R}, d(v, w) = |v - w| = sqrt{<v-w, v-w>}]

度量可以用于描述长度或距离,定义了度量的线性空间称作是度量空间(Metric Space)。

规范内积(Canonical Inner Product)是内积的一种“实现方式”,也称作点积((Dot Product)[]),线性空间 $ V = mathbb{R}^n $ 中定义在规范基底 $ B = I_n $ 上的点积:

[ <x, y> = x^T y = Sigma^n_{i=1} x_i y_i ]

对应的范数就称作 $ L_2 $ 范数($ L_2 $-norm)或者欧几里德范数(Euclidean Norm#Euclidean_norm)):

[ |x|_2 = sqrt{x^Tx} = sqrt{x_1^2 dots x_n^2} ]

如果不把点积定义在规范基底 $ I_n $ 上,而定义在基底 $ B' $ 上($ I_n = B'A^{-1} (,) A $ 是从标准基底 $ I_n $ 到 $ B' $ 的变换矩阵),在新坐标 $ (x', y') $ 下的点积与旧坐标 $ (x, y) $下的点积的关系:

[ <x, y> = x^Ty = (Ax')^T(Ay') = x'^TA^TAy' equiv <x', y'>_{A^TA} ]

$ <x', y'>_{A^TA} $ 被称作从矩阵 $ A $ 诱导出的内积。

最后,两个向量 $ v, w $ 当且仅当 $

两个矩阵 $ A in mathbb{R}^{m times n}, B in mathbb{R}^{k times l} $ 的克罗内克积(Kronecker Product)
[ A otimes B = begin{bmatrix} a_{11}B dots a_{1n}B \ vdots quad ddots quad vdots \ a_{m1}B dots a_{mn}Bend{bmatrix} in mathbb{R}^{mk times nl}]
形式上是将 $ A $ 中的每一个元素替换成该元素与 $ B $ 的数乘。

有了克罗内克积就可以定义矩阵的 stack,矩阵 $ A = [a_1, a_2 dots a_n] in mathbb{R}^{m times n} $ 是将 $ A $ 的所有列向量组合成一个列向量:

[ A^s equiv begin{bmatrix} a_1 \ vdots \ a_n end{bmatrix} in mathbb{R}^{mn} ]

在 Matlab 中可以表示为

A_stack = kron(ones(size(A, 2), 1), A);

克罗内克积有一个非常常用的转换:

[ u^TAv = (v otimes u)^T A^s ]

如果 (u^TAv = 0) ,使用这种转换就可以形成一个线性系统。

半梯度下降(Semi-gradient TD(0))

  • 算法描述

    Input: the policy (pi) to be evaluated
    Input: a differentiable function class="math inline">(hat{v} : S^ times mathbb{R^n} to mathbb{R}) such that class="math inline">(hat{v}(terminal, dot ) = 0)

    Initialize value-function weights class="math inline">(theta) arbitrarily (e.g. class="math inline">(theta = 0))
    Repeat (for each episode):
      Initialize (mathcal{S})
      Repeat (for each step of episode):
       Choose $A sim pi(dot  |S) $
       Take action (A), observe (R, S')
       (theta gets theta alpha [R gamma hat{v}(S', theta) -hat{v}(S', theta)] nabla hat{v}(S, theta))
       (S gets S')
      Until (S') is terminal

2. 线性变换与矩阵

n-steps TD

请看原书,不做拗述。

2.1 线性变换

线性变换是指在两个线性空间之间的映射,$ L: V rightarrow W $,这种映射满足两个条件:

[ L(x y) = L(x) L(y), forall x, y in V ]

[ L(alpha x) = alpha L(x), forall x in V, alpha in mathbb{R} ]

这种映射可以认为是对线性空间 $ V $ 中的基底进行变换,在标准正交基底 $ {e_1, dots, e_n} $ 的情况下:

[ L(x) = Ax, forall x in V ]

[ A = (L(e_1), L(e_2), dots, L(e_n)) in mathbb{R}^{m times n} ]

所有 $ m times n $ 矩阵组成的集合写作 $ mathscr{M}(m, n) $,当 (m = n) 时,$ mathscr{M}(m, n) equiv mathscr{M}(n) $,就形成了了数域 (mathbb{R}) 中的一个环(Ring),所谓的环就是在这个矩阵集合对矩阵的加法、乘法封闭。

线性变换是线性空间之间满足特定条件的映射,这种映射一般使用矩阵描述。

特征选择

2.2 群与矩阵

群指线性变换的集合加上一种运算,$ circ: G times G rightarrow G $ ,并且满足四个条件:

  1. 封闭(Closure):$ g_1 circ g_2 : G, forall g_1, g_2 in G $
  2. 结合(Associativity):$ (g_1 circ g_2)circ g_3 = g_1 circ (g_2 circ g_3), forall g_1, g_2, g_3 in G $
  3. 单位元(Identity Element):$ exists e in G : e circ g = g circ e = g, forall g in G $
  4. 逆元(Inverse Element):$ exists g^{-1} in G: g circ g^{-1} = g^{-1} circ g = e, forall g in G $

两个重要的群:一般线性群(General Linear Group)$ GL(n) $ 与 特殊线性群(Special Linear Group)$ SL(n) $。

$ GL(n) $ 定义在所有可逆的 $ n times n $ 矩阵组成的集合 (mathscr{M}(n)) 与矩阵乘法之上。

$ SL(n) $ 的集合是 $ GL(n) $ 集合的子集,$ SL(n) $ 要求集合元素 $ A $ 满足 $ det(A) = 1 (,) SL(n) $ 不仅对矩阵乘法封闭,也对矩阵逆封闭。

群 $ G $ 可以使用矩阵进行表示(Matrix Representation),以方便对群的性质进行研究(转化为对矩阵性质的研究)。群转换为矩阵的形式进行描述需要群中的元素(线性变换)能够在一般线性群中找到唯一的像,且群中不同元素的像不相同,这是一个单射映射(Injection):

[ R: G rightarrow GL(n) ]

图片 1

这种映射还需要满足两个条件:

[ R(e) = I_{n times n}, R(g circ h) = R(g)R(h), forall g, h in G ]

即幺元的像是单位阵,群内的运算对应矩阵的乘法。

线性方程的定义

[ phi(s) doteq (phi_1(s), phi_2(s), dots, phi_n(s))^T \ hat{v} doteq theta^T phi(s) doteq sum_{i=1}^n theta_i phi_i(s) ]
(phi(s)) 为特征函数
这里讨论特征函数的通用化定义方法。

2.3 MVG 中涉及的群

多项式基(polynomials basis)

(s)的每一个维度都可以看成一个特征。多项式基的方法是使用(s)的高维多项式作为新的特征。
比如:二维的(s = (s_1, s_2)),可以选择多项式为((1, s_1, s_2, s_1s_2))或者((1, s_1, s_2, s_1s_2, s_1^2, s_2^2, s_1s_2^2, s_1^2s_2, s_1^2s_2^2))

多项式基方法的通用数学表达:
[ phi_i(s) = prod_{j=1}^d s_j^{C_{i,j}} \ where \ s = (s_1,s_2,cdots,s_d)^T \ phi_i(s) text{ - polynomials basis function} ]

2.3.1 仿射群(Affine Group $ A(n) $)

仿射变换(Affine Transformation) $ L : mathbb{R}^n rightarrow mathbb{R}^n $ 由一个矩阵 $ A in GL(n)$ 和一个向量 $ v in mathbb{R}^n $ 定义:

[ L(x) = Ax b ]

所有的这种仿射变换组成的集合称作仿射群(Affine Group),用 $ A(n) $ 表示。

如果用齐次坐标表示向量,仿射群可以使用矩阵的形式表示:

[ L : mathbb{R}^{n 1} rightarrow mathbb{R}^{n 1}, begin{bmatrix} x \ 1 end{bmatrix} mapsto begin{bmatrix} A quad b \ 0 quad 1end{bmatrix} begin{bmatrix} x \ 1 end{bmatrix} ]

[ A(n) = left{begin{bmatrix} A quad b \ 0 quad 1end{bmatrix} left.right| A in GL(n), v in mathbb{R}^nright} ]

傅里叶基(Fourier basis)

傅里叶基方法的通用数学表达:
[ phi_i(s) = cos(pi c^i dot s), s in [0,1)] \ where \ c^i = (x_1^i, c_2^i, cdots, c_d^i)^T, with c_j^i in {0, cdots, N} for j = 1, cdots, d and i = 0, cdots, (N 1)^d ]

2.3.2 正交群(Orthogonal Group $ O(n) $)

矩阵 $ R $ 正交(Orthogonal)指满足条件:

[ <Rx, Ry> = <x, y>, forall x, y in mathbb{R}^{n} ]

所有的 $ n times n $ 的正交矩阵组成正交群(Orthogonal Group) $ O(n) $,由上式可得:

[ x^TR^TRy = x^Ty, forall x, y in mathbb{R}^{n} ]

所以 $ R^TR = RR^T = I $,得到正交群的定义:

[ O(n) = { R in GL(n) | R^TR = I } ]

[ det(R^TR) = det(R)^2 = det(I) = 1 ]

[ det(R) in {pm1} ]

正交群有一子群叫做特殊正交群(Special Orthogonal Matrix)$ SO(n) $,特殊正交群中的元素 $ det(R) = 1 (。特殊正交群可以看做特殊线性群与正交群的交集,) SO(n) = O(n) cap SL(n) $。

$ SO(3) $ 对应三维空间中所有的旋转矩阵。

径向基(Radial Basis)

径向基方法的通用数学表达:
[ phi_i(s) doteq exp left ( - frac{lVert s-c_i rVert ^2 }{2 sigma_i^2} right ) ]

2.3.3 欧几里德群(Euclidean Group $ E(n) $)

欧式变换(Euclidean Transformation)由一个正交矩阵 $ R in O(n) $ 和一个向量 $ T in mathbb{R}^n $ 定义:

[ L: mathbb{R}^n rightarrow mathbb{R}^n, x mapsto Rx T ]

写作齐次坐标,得到欧几里德群的定义:

[ E(n) = left{ begin{bmatrix} R quad T \ 0 quad 1 end{bmatrix} left.right| R in O(n), T in mathbb{R}^n right} ]

注意偶几里德群里面的矩阵 $ R $ 是正交阵,其行列式为 (pm 1)。对 $ R $ 进行进一步的限制 $ R in SO(n) $,就能得到特殊欧几里德群(Speical Euclidean Group)的定义:

[ SE(n) = left{ begin{bmatrix} R quad T \ 0 quad 1 end{bmatrix} left.right| R in SO(n), T in mathbb{R}^n right} ]

$ SE(3) $ 对应三维空间的刚体变换(Rigid Transformation)。

最小二乘法TD(Least-Squares TD)

Input: feature representation (phi(s) in mathbb{R}^n, forall s in mathcal{S}, phi(terminal) doteq 0)

$hat{A^{-1}} gets epsilon^{-1} I qquad text{An } n times n  matrix $
(hat{b} gets 0)
Repeat (for each episode):
  Initialize S; obtain corresponding class="math inline">(phi)
  Repeat (for each step of episode):
   Choose (A sim pi(dot | S))
   Take action (A), observer (R, S'); obtain corresponding (phi')
   (v gets hat{A^{-1}}^T (phi - gamma phi'))
   (hat{A^{-1}} gets hat{A^{-1}} - (hat{A^{-1}}phi) v^T / (1 v^Tphi))
   (hat{b} gets hat{b} R phi)
   (theta gets hat{A^{-1}} hat{b})
   (S gets S'; phi gets phi')
  until S' is terminal

2.3.4 小结

[ SO(n) subset O(n) subset GL(n) ]

[ SE(n) subset E(n) subset A(n) subset GL(n 1) ]

3. 矩阵的性质

矩阵的性质就是矩阵的秩、特征值、特征向量。

3.1 秩

矩阵 $ A in mathbb{R}^{m times n}$ 表示从线性空间 $ mathbb{R}^n $ 到线性空间 $ mathbb{R}^m $ 的映射,它的值域(Range))$ rang(A) $ 表示 $ A $ 在 $ mathbb{R}^m $ 中能映射到的范围:

[ rang(A) = { y in mathbb{R}^m | exists x in mathbb{R}^n : Ax = y } ]

矩阵 $ A $ 的核(Kernel || Nullspace))是在 $ mathbb{R}^n $ 能被矩阵 $ A $ 映射到0的元素的集合:

[ null(A) = ker(A) = {x in mathbb{R}^n | Ax = 0 } ]

矩阵的秩(Rank))是矩阵值域的维度:

[ rank(A) = dim(range(A)) ]

秩的性质:

  1. $ rank(A) = n - dim(ker(A)) $;
  2. $ 0 le rank(A) le min{m, n} $;
  3. $ rank(A) $ 是 $ A $ 最大线性无关行(列)向量的个数;
  4. $ rank(A) $ 是 $ A $ 最高阶非零余子式的阶数;
  5. $B in mathbb{R}^{n times k}, rank(A) rank(B) - n le rank(AB) le min{ rank(A), rank(B) } $;
  6. 对于任意两个非奇异矩阵 $ C in mathbb{R}^{m times m}, D in mathbb{R}^{n times n} (,) rank(A) = rank(CAD) $。

3.2 特征值与特征向量

特征值与特征向量(Eigenvalues and Eigenvectors)有左右之分,一般情况下默认为右特征值与右特征向量。

$ A in mathbb{C}^{m times n} $ 的右特征值是一个非零的向量 $ v in mathbb{C}^n $:

[ Av = lambda v, lambda in mathbb{C} ]

$ A in mathbb{C}^{m times n} $ 的左特征值是一个非零的向量 $ v in mathbb{C}^m $:

[ v^TA = lambda v^T, lambda in mathbb{C} ]

相对应的 (lambda) 就称作 $ A $ 的特征值。

矩阵 $ A $ 所有特征值组成的集合叫做矩阵 $ A $ 的谱(Spectrum),记作 (sigma(A))。

(A in mathbb{R}^{n times n}),特征值与特征向量的性质:

  1. 左右特征值是一一对应的,对 $ Av = lambda v, lambda in mathbb{R}$,存在左特征值 (eta in mathbb{R}^n) 使得 $ eta ^TA = lambda A $,左右转置可知 $ sigma(A^T) = sigma(A) $;
  2. 不同特征值的特征向量之间线性无关;
  3. $ sigma(A) $ 是特征多项式 (det(lambda I - A) = 0) 的根,所以 (det(A)) 等于所有特征值的乘积;
  4. 若 (B = PAP^{-1}),$ P $ 是可逆矩阵,那么 (sigma(B) = sigma(A));
  5. 特征值与其共轭复数成对出现,即 (lambda in mathbb{C}) 是 $ A $ 的一个特征值,$ bar{lambda} $ 也是 $ A $ 的一个特征值,有 (sigma(A) = bar{sigma(A)})。

3.3 对称阵与反对称阵

若方阵 $S in mathbb{R}^{n times n} $ 满足 (S^T = S),则称 $ S $ 是对称阵(Symmetric Matrix)。若对称阵满足 $ x^TSx ge 0, forall x in mathbb{R}^n $ 则称其半正定的(Positive Semi-Definite),记作 $ S ge 0 $。 若对称阵满足 $ x^TSx gt 0 $ ,则称其正定的(Positive Definite)。

实对称阵 $ S in mathbb{R}^{n times n} $ 具有以下性质:

  1. 所有的特征值都为实数,即 (sigma(S) in mathbb{R});
  2. 特征值互异的特征向量正交,即 $ S v_i = lambda_i v_i, S v_j = lambda_j v_j, lambda_i ne lambda_j Rightarrow v_i^Tv_j = 0 $;
  3. 有 (n) 个单位正交的特征向量,这些特征向量组成线性空间 (mathbb{R}^n) 的一组基底,将特征向量组成矩阵 (V = (v_1, dots, v_n) in O(n)),特征值组成对角矩阵 (Lambda = diag{ lambda_1, dots, lambda_n }),$ S $ 可以用这两个矩阵分解 $ S = V Lambda V^T $;
  4. $ S $ 所有的特征值为非负数,则 $ S $ 为半正定矩阵; $ S $ 所有的特征值为正数,则 $ S $ 为正定矩阵 。

矩阵范数(Matrix Norm)有2范数(2-norm)和F范数(Frobenius norm):

矩阵 $ A in mathbb{R}^{m times n} $

[ {|A|}_2 equiv max_{|x|_2=1} |Ax|_2 = max_{|x|_2=1}sqrt{<x, A^TAx>} ]

[ {|A|}_f equiv sqrt{Sigma_{i,j}a_{ij}^2} = sqrt{trace(A^TA)} ]

矩阵 (A^TA) 是对称阵,且半正定,所以 $ A^TA $ 可分解为 $ A^TA = Vdiag{ sigma_1^2, dots, sigma_n^2}V^T, sigma_1^2 ge sigma_i^2 ge 0 $,可得

[ {| A |}_2 = sigma_1 ]

[ {| A |}_f = sqrt{sigma_1^2 dots sigma_n^2} ]

若方阵 $A in mathbb{R}^{n times n} $ 满足 (A^T = -A),则称 $ A $ 是反对称阵(Skew-symmetric Matrix)。

反对称阵具有以下性质:

  1. 所有特征值都为0或者纯虚数;
  2. 可以分解为 $ A = V Lambda V^T $,其中 (Lambda) 是块对角矩阵 [ Lambda = diag{ A_1, dots, A_m, 0, dots, 0 },\ A_i = begin{bmatrix} 0 quad a_i \ -a_i quad 0 end{bmatrix} in mathbb{R}^{2times2}, i = 1, dots, m];
  3. 秩为偶数。

  4. 奇异值分解

矩阵 (A in mathbb{R}^{m times n}, m gt n, rank(A) = p),则 $ A $ 能够分解为

[ A = U Sigma V^T ]

其中

  1. $ U in mathbb{R}^{m times p} $,列向量单位正交;
  2. $ V in mathbb{R}^{n times p} $,列向量单位正交;
  3. $ Sigma in mathbb{R}^{p times p}, Sigma = diag{sigma_1, dots, sigma_p}, sigma_1 ge dots ge sigma_n$。

奇异值分解的应用,广义逆(Moore–Penrose Pseudoinverse):

[ A^dagger = V Sigma^dagger U^T, Sigma^dagger = begin{bmatrix} Sigma^{-1}_1 quad 0 \ 0 quad quad 0 end{bmatrix} in mathbb{R}^{m times n}]

广义逆具有以下的性质:

[ A^dagger A A^dagger = A^dagger, A A^dagger A = A ]

广义逆可用于解线性系统 $ Ax = b, A in mathbb{R}^{m times n}, rank(A) le min(m, n) (,) x_{min} = A^dagger b $ 是在所有最小化误差 $ | Ax-b |^2 $ 的解中,自身模 (|x|) 最小的那个。

本文由bv1946伟德入口发布于产品评测,转载请注明出处:夏勇副教授应邀来我校讲学,policy预测的近似方

关键词: