特征值和特征向量















线性代数

A=[1234]{displaystyle mathbf {A} ={begin{bmatrix}1&2\3&4end{bmatrix}}}mathbf {A} ={begin{bmatrix}1&2\3&4end{bmatrix}}


向量 · 向量空间  · 行列式  · 矩阵



















特征值与特征向量。在A{displaystyle A}A变换的作用下,向量ξ{displaystyle xi }xi仅仅在尺度上变为原来的λ{displaystyle lambda }lambda 倍。称ξ{displaystyle xi }xiA的一个特征向量,λ{displaystyle lambda }lambda 是对应的特征值。




图1.当蒙娜丽莎的图像左右翻转时,中间垂直的红色向量方向保持不变。而水平方向上黄色的向量的方向完全反转,因此它们都是左右翻转变换的特征向量。红色向量长度不变,其特征值为1。黄色向量长度也不变但方向变了,其特征值为-1。橙色向量在翻转后和原来的向量不在同一条直线上,因此不是特征向量。


在数学上,特别是线性代数中,对于一个给定的方阵A{displaystyle A}A,它的特征向量(eigenvector,也譯固有向量本征向量v{displaystyle v}v 经过这个线性变换[a]之后,得到的新向量仍然与原来的v{displaystyle v}v 保持在同一條直線上,但其长度或方向也许會改变。即



Av=λv{displaystyle Av=lambda v}{displaystyle Av=lambda v}

λ{displaystyle lambda }lambda 為純量,即特征向量的长度在该线性变换下缩放的比例,称λ{displaystyle lambda }lambda 为其特征值(本征值)。如果特徵值為正,则表示v{displaystyle v}v 在经过线性变换的作用后方向也不变;如果特徵值為負,说明方向会反转;如果特征值为0,则是表示缩回零点。但无论怎样,仍在同一条直线上。图1给出了一个以著名油画《蒙娜丽莎》为题材的例子。在一定条件下(如其矩阵形式为实对称矩阵的线性变换),一个变换可以由其特征值和特征向量完全表述,也就是說:所有的特徵向量組成了這向量空間的一組基底。一个特征空间(eigenspace)是具有相同特征值的特征向量与一个同维数的零向量的集合,可以证明该集合是一个线性子空间,比如={u∈V∣Au=λu}{displaystyle textstyle E_{lambda }={uin Vmid Au=lambda u}}{displaystyle textstyle E_{lambda }={uin Vmid Au=lambda u}} 即為線性變換A{displaystyle A}A 中以λ{displaystyle lambda }lambda 為特徵值的特徵空間


这些概念在纯数学和应用数学的众多领域中都有重要的应用。在线性代数和泛函分析之外,甚至在一些非线性的情况下,这些概念都是十分重要的。


「特征」一詞譯自德语的eigen,由希尔伯特在1904年首先在这个意义下使用(赫尔曼·冯·亥姆霍兹在更早的时候也在类似意义下使用过这一概念)。eigen一詞可翻译为“自身的”,“特定于...的”,“有特征的”或者“个体的”—这强调了特征值对于定义特定的变换上是很重要的。




目录






  • 1 定义


  • 2 例子


    • 2.1 线性变换


    • 2.2 其他例子




  • 3 特征值方程


  • 4 谱定理


  • 5 矩阵的特征值和特征向量


    • 5.1 计算矩阵的特征值和特征向量


      • 5.1.1 形式计算


      • 5.1.2 数值计算




    • 5.2 性质


      • 5.2.1 代数重次


      • 5.2.2 一般矩阵分解定理


      • 5.2.3 特征值的一些另外的属性




    • 5.3 共轭特征向量


    • 5.4 广义特征值


    • 5.5 系数为环中元素




  • 6 无穷维空间


  • 7 应用


    • 7.1 薛定谔方程


    • 7.2 分子轨域


    • 7.3 因子分析


    • 7.4 振動分析


    • 7.5 特征脸


    • 7.6 慣性張量


    • 7.7 应力张量


    • 7.8 图的特征值




  • 8 注釋


  • 9 参考文献


    • 9.1 引用


    • 9.2 书籍




  • 10 外部連結





定义


给定一个向量空间E{displaystyle mathbf {E} }mathbf {E} ,从E{displaystyle mathbf {E} }mathbf {E} E{displaystyle mathbf {E} }mathbf {E} 自身的线性变换T{displaystyle mathbf {T} }mathbf{T}是一个保持向量加法和純量乘向量這兩種運算的函数,例如旋转、反射、拉伸、压缩,或者这些变换的组合等等[1]。一个线性变换可以通过它们在向量上的作用来可视化。一般来说,一个向量在经过映射之后可以变为任何可能的向量,而特征向量具有更好的性质[2]


一个线性变换T:E↦E{displaystyle mathbf {T} :mathbf {E} mapsto mathbf {E} }{displaystyle mathbf {T} :mathbf {E} mapsto mathbf {E} }特征向量v{displaystyle v}v 是一個非零向量[b]且在这个线性变换下的新向量為v{displaystyle v}v 简单地乘以一个标量λ{displaystyle lambda }lambda [2]。也就是说存在一個純量λ{displaystyle lambda }lambda  使得v{displaystyle v}v满足下式:


T(v)=λv{displaystyle mathbf {T} (v)=lambda v}{displaystyle mathbf {T} (v)=lambda v}

其中的缩放因子λ{displaystyle lambda }lambda 称为这个特征向量的特征值,或者说是线性变换T{displaystyle mathbf {T} }mathbf{T}的特征值。反过来,一个实数λ{displaystyle lambda }lambda 是线性变换T{displaystyle mathbf {T} }mathbf{T}的一个特征值,当且仅当有一个非零向量v{displaystyle v}v满足上面的式子[2][3]


所有具有相同的特征值λ{displaystyle lambda }lambda 的特征向量和零向量一起,组成了一个向量空间,称为线性变换的一个特征空间,一般记作(T){displaystyle mathbb {E} _{lambda }(mathbf {T} )}mathbb{E}_{lambda}(mathbf{T})[4]。这个特征空间如果是有限维的,那么它的维数叫做λ{displaystyle lambda }lambda 几何重数[5]


变换的主特征向量是模最大的特征值对应的特征向量[6]。有限维向量空间上的一个变换的是其所有特征值的集合[7]


特征向量也可以看作是关于系数λ{displaystyle lambda }lambda 的方程:


T(x)=λx{displaystyle mathbf {T} (x)=lambda x}{displaystyle mathbf {T} (x)=lambda x}

的非零解。显然只有在λ{displaystyle lambda }lambda 是变换T{displaystyle mathbf {T} }mathbf{T}的特征值之时,方程才有非零解[8]



例子



线性变换


最简单的例子是恒等变换I{displaystyle mathbf {I} }mathbf {I} 的特征向量。由于对所有的非零向量v{displaystyle v}v


I(v)=v=1⋅v{displaystyle mathbf {I} (v)=v=1cdot v}mathbf{I} (v) = v = 1 cdot v

所以所有的非零向量都是恒等变换I{displaystyle mathbf {I} }mathbf {I} 的特征向量,对应着特征值1。恒等变换的特征空间只有一个,就是整个空间,对应着特征值1。[9]类似地,数乘变换λI{displaystyle lambda mathbf {I} }lambda mathbf{I}的特征向量也是所有非零向量,因为按照定义,对所有的非零向量v{displaystyle v}v


λI(v)=λv{displaystyle lambda mathbf {I} (v)=lambda cdot v}lambda mathbf{I} (v) =lambda  cdot v

如果一个变换可以写成对角矩阵,那么它的特征值就是它对角线上的元素,而特征向量就是相应的基。例如矩阵:


A=[200020004]{displaystyle mathbf {A} ={begin{bmatrix}2&0&0\0&2&0\0&0&4end{bmatrix}}}mathbf{A} =begin{bmatrix}2 & 0 & 0\ 0 & 2 & 0 \ 0 & 0 & 4 end{bmatrix}

的特征值就是2和4。2对应的特征向量是所有形同(a,b,0)T{displaystyle (a,b,0)^{T}}(a, b, 0)^T的非零向量,而4对应的特征向量是所有形同(0,0,c)T{displaystyle (0,0,c)^{T}}(0, 0, c)^T的非零向量。2对应的特征空间是一个2维空间,而4对应的特征空间是一个1维空间。矩阵A{displaystyle mathbf {A} }mathbf{A}的谱是{2,4}{displaystyle left{2,4right}}left{ 2, 4right}


在这个错切变换中,蒙娜丽莎的图像被变形,但是垂直的红色向量在变换下保持不变,而蓝色的向量,从胸部到肩膀,其方向改变了。因此红色向量是该变换的一个特征向量,而蓝色的不是。红色向量长度不变,特征值为1。所有沿着垂直线的向量也都是特征向量,它们的特征值相等。它们构成这个特征值的特征空间。

对于更复杂的矩阵,特征向量和特征值就不是显然的了。右图中的例子是一个二维平面上的错切变换,其矩阵可以表示为:


A=[10−121]{displaystyle mathbf {A} ={begin{bmatrix}1&0\-{frac {1}{2}}&1end{bmatrix}}} mathbf{A}=begin{bmatrix}1 & 0\ -frac{1}{2} & 1end{bmatrix}

A{displaystyle mathbf {A} }mathbf {A} 的特征向量x{displaystyle mathbf {x} }mathbf {x} ,按照定义,是在变换A{displaystyle mathbf {A} }mathbf{A}的作用下会得到x{displaystyle mathbf {x} }mathbf {x} 自身的若干倍的非零向量。假设在A{displaystyle mathbf {A} }mathbf{A}的作用下x{displaystyle mathbf {x} }mathbf {x} 变成了自身的λ{displaystyle lambda }lambda 倍,也就是


Ax=λx{displaystyle mathbf {A} mathbf {x} =lambda mathbf {x} }mathbf{A} mathbf{x} = lambda mathbf{x}

在等式两边的左侧乘以单位矩阵I,得到


IAx=I⋅λx{displaystyle mathbf {IA} mathbf {x} =mathbf {I} cdot lambda mathbf {x} }mathbf{IA} mathbf{x} =mathbf{I} cdot lambda mathbf{x}

Ax=(λI)x{displaystyle mathbf {A} mathbf {x} =(lambda I)mathbf {x} }mathbf{A}mathbf{x} = (lambda I)mathbf{x}

因此


(A−λI)x=0{displaystyle (mathbf {A} -lambda mathbf {I} )mathbf {x} =0}(mathbf{A}-lambda mathbf{I}) mathbf{x}=0

根据线性方程组理论,为了使这个方程有非零解,矩阵A−λI{displaystyle mathbf {A} -lambda mathbf {I} }mathbf{A}-lambda mathbf{I}的行列式必须是零:


det(A−λI)=0{displaystyle det(mathbf {A} -lambda mathbf {I} )=0}det(mathbf{A}-lambda mathbf{I}) = 0

按照行列式的展开定义,上面式子的左端是一个关于λ{displaystyle lambda }lambda 的多项式,称为特征多项式。这个多项式的系数只和A{displaystyle mathbf {A} }mathbf{A}有关。在这个例子中,可以计算这个特征多项式:


det([10−121]−λ[1001])=(1−λ)2{displaystyle det !left({begin{bmatrix}1&0\-{frac {1}{2}}&1end{bmatrix}}-lambda {begin{bmatrix}1&0\0&1end{bmatrix}}right)=(1-lambda )^{2}}det!left(begin{bmatrix}1 & 0\ -frac{1}{2} & 1end{bmatrix} - lambdabegin{bmatrix}1 & 0\ 0 & 1end{bmatrix} right)=(1-lambda)^2

在这种情况下特征多项式的方程变成(1−λ)2=0{displaystyle (1-lambda )^{2}=0}(1-lambda)^2 = 0。它的唯一的解是:λ=1{displaystyle lambda =1}lambda=1。这就是矩阵A{displaystyle mathbf {A} }mathbf{A}的特征值。


找到特征值λ=1{displaystyle lambda =1}lambda=1后,就可以找出


(A−λI)x=0{displaystyle (mathbf {A} -lambda mathbf {I} )mathbf {x} =0}(mathbf{A}-lambda mathbf{I}) mathbf{x}=0

的非零解,也就是特征向量了。在例子中:


[1−λ0−121−λ][x1x2]=0{displaystyle {begin{bmatrix}1-lambda &0\-{frac {1}{2}}&1-lambda end{bmatrix}}{begin{bmatrix}x_{1}\x_{2}end{bmatrix}}=0}begin{bmatrix}1-lambda & 0\ -frac{1}{2} & 1-lambda end{bmatrix}begin{bmatrix}x_1\ x_2end{bmatrix}=0

λ=1{displaystyle lambda =1}lambda=1代入,就有


[00−120][x1x2]=0{displaystyle {begin{bmatrix}0&0\-{frac {1}{2}}&0end{bmatrix}}{begin{bmatrix}x_{1}\x_{2}end{bmatrix}}=0}begin{bmatrix}0 & 0\ -frac{1}{2} & 0 end{bmatrix}begin{bmatrix}x_1\ x_2end{bmatrix}=0

解这个新矩阵方程,得到如下形式的解:


x=[0c]{displaystyle mathbf {x} ={begin{bmatrix}0\cend{bmatrix}}}mathbf{x} = begin{bmatrix}0\ cend{bmatrix}

这里的c是任意非零常量。因此,矩阵A{displaystyle mathbf {A} }mathbf{A}的特征向量就是所有竖直方向的向量(比如图中红色箭头代表的向量)。


一般来说,2×2的非奇异矩阵如果有两个相异的特征值,就有两个线性无关的特征向量。在这种情况下,对于特征向量,线性变换仅仅改变它们的长度,而不改变它们的方向(除了反转以外),而对于其它向量,长度和方向都可能被矩阵所改变。如果特征值的模大于1,特征向量的长度将被拉伸,而如果特征值的模小于1,特征向量的长度就将被压缩。如果特征值小于0,特征向量将会被翻转。



其他例子


随着地球的自转,每个从地心往外指的箭头都在旋转,除了在转轴上的那些箭头。考虑地球在一小时自转后的变换:地心指向地理南极的箭头是这个变换的一个特征向量,并且因为指向极点的箭头没有被地球的自转拉伸,它的特征值是1;但是从地心指向赤道任何一处的箭头不会是一个特征向量。


另一个例子是,薄金属板关于一个固定点均匀伸展,使得板上每一个点到该固定点的距离翻倍。这个伸展是一个有特征值2的变换。从该固定点到板上任何一点的向量是一个特征向量,而相应的特征空间是所有这些向量的集合。




图2.一个两端固定的绳子上的驻波可以视为特征向量的一个例子,更精确的讲,它是一个相对于时间流逝的变换的特征函数。随着时间流逝,驻波被缩放,但是它的形状不变。在这个例子中,特征值是依赖于时间的。


但是,三维几何空间不是唯一的向量空间。例如,考虑两端固定的拉紧的绳子,就像弦乐器的振动弦那样(图2.)。振动弦的原子到它们在弦静止时的位置之间的带符号那些距离视为一个空间中的一个向量的分量,那个空间的维数就是弦上原子的个数。


如果考虑绳子随着时间流逝发生的变换,它的特征向量,或者说特征函数(如果将绳子假设为一个连续媒介),就是它的驻波—也就是那些通过空气的传播让人们听到弓弦和吉他的拨动声的振动。驻波对应于弦的特定振动,它们使得弦的形状随着时间变化而伸缩一个因子(特征值)。和弦相关的该向量的每个分量乘上了一个依赖于时间的因子。驻波的振幅(特征值)在考虑到阻尼的情况下逐渐减弱。因此可以将每个特征向量对应于一个寿命,并将特征向量的概念和共振的概念联系起来。



特征值方程


从数学上看,如果向量v与变换T{displaystyle {mathcal {T}}}mathcal{T}满足


T(v)=λv{displaystyle {mathcal {T}}(mathbf {v} )=lambda ,mathbf {v} }mathcal{T}(mathbf{v})=lambda,mathbf{v}

则称向量v是变换T(⋅){displaystyle {mathcal {T}}(cdot )}mathcal{T}(cdot)的一个特征向量,λ是相应的特征值。其中T(v){displaystyle {mathcal {T}}(mathbf {v} )}mathcal{T}(mathbf{v})是将变换T(⋅){displaystyle {mathcal {T}}(cdot )}mathcal{T}(cdot)作用于v得到的向量。


假设T(⋅){displaystyle {mathcal {T}}(cdot )}mathcal{T}(cdot)是一个线性变换,那么v可以由其所在向量空间的一组基表示为:


v=∑i=1nviei{displaystyle mathbf {v} =sum _{i=1}^{n}v_{i}mathbf {e} _{i}}mathbf{v} = sum_{i=1}^n v_imathbf{e}_i

其中vi{displaystyle v_{i}}v_i是向量v{displaystyle mathbf {v} }mathbf {v} 在基向量ei{displaystyle mathbf {e} _{i}}mathbf{e}_i上的投影(即坐标),这里假设向量空间为n 维。由此,v{displaystyle mathbf {v} }mathbf {v} 可以直接以坐标向量v=(v1,…,vn)T{displaystyle v=(v_{1},ldots ,v_{n})^{T}}v=(v_1,ldots,v_n)^T表示。利用基向量,线性变换T(⋅){displaystyle {mathcal {T}}(cdot )}mathcal{T}(cdot)也可以用一个简单的矩阵乘法表示。上述的特征值方程可以表示为:


Tv=λv{displaystyle T,v=lambda ,v}T,v=lambda,v

但是,有时候用矩阵形式写下特征值方程是不自然甚或不可能的。例如在向量空间是无穷维的时候,上述的弦的情况就是一例。取决于变换T{displaystyle {mathcal {T}}}mathcal{T}和它所作用的空间的性质,有时将特征值方程表示为一组微分方程更好。若T{displaystyle {mathcal {T}}}mathcal{T}是一个微分算子,其特征向量通常称为该微分算子的特征函数。例如,微分本身是一个线性变换因为(若MN是可微函数,而ab是常数)


ddt(aM+bN)=adMdt+bdNdt{displaystyle {frac {d}{dt}}(aM+bN)=a{frac {dM}{dt}}+b{frac {dN}{dt}}} frac{d}{dt}(aM+bN) = a frac{dM}{dt} + bfrac{dN}{dt}

考虑对于时间t{displaystyle t}t的微分。其特征函数满足如下特征值方程:



dNdt=λN{displaystyle {frac {dN}{dt}}=lambda N}frac{dN}{dt} = lambda N,

其中λ是该函数所对应的特征值。这样一个时间的函数,如果λ=0{displaystyle lambda =0}lambda = 0,它就不变,如果λ{displaystyle lambda }lambda 为正,它就按比例增长,如果λ{displaystyle lambda }lambda 是负的,它就按比例衰减。例如,理想化的兔子的总数在兔子更多的地方繁殖更快,从而满足一个正λ的特征值方程。


该特征值方程的解是N=exp⁡t){displaystyle N=exp(lambda t)}N= exp (lambda t),也即指数函数;这样,该函数是微分算子d/dt的特征值为λ的特征函数。若λ是一个负数,我们称N的演变为一个指数衰减;若它是正数,则称指数增长。λ的值可以是一个任意复数。因此d/dt的谱是整个复平面。在这个例子中,算子d/dt作用的空间是单变量可微函数的空间。该空间有无穷维(因为不是每一个可微函数都可以用有限的基函数的线性组合来表达的)。但是,每个特征值λ所对应的特征空间是一维的。它就是所有形为N=N0exp⁡t){displaystyle N=N_{0}exp(lambda t)}N= N_0 exp (lambda t)的函数的集合。N0是任意常数,也就在t=0的初始数量。



谱定理



谱定理在有限维的情况,将所有可对角化的矩阵作了分类:它显示一个矩阵是可对角化的,当且仅当它是一个正规矩阵。注意这包括自共轭(厄尔米特)的情况。这很有用,因为对角化矩阵T的函数f(T)(譬如波莱尔函数f)的概念是清楚的。在采用更一般的矩阵的函数的时候谱定理的作用就更明显了。例如,若f是解析的,则它的形式幂级数,若用T取代x,可以看作在矩阵的巴拿赫空间中绝对收敛。谱定理也允许方便地定义正算子的唯一的平方根。


谱定理可以推广到希尔伯特空间上的有界正规算子,或者无界自共轭算子的情况。



矩阵的特征值和特征向量



计算矩阵的特征值和特征向量


假设我们想要计算给定矩阵的特征值。若矩阵很小,我们可以用特征多项式进行符号演算。但是,对于大型矩阵这通常是不可行的,在那种情况我们必须采用数值方法。



形式计算



描述正方形矩阵的特征值的重要工具是特征多项式:就如之前的例子一样,说λA的特征值等价于说线性系统(AλIv = 0(其中I是单位矩阵)有非零解v(一个特征向量),因此等价于说行列式:


det(A−λI)=0 {displaystyle det(A-lambda I)=0! }det(A - lambda I) = 0 !

函数:pA(λ)=det(A−λI) {displaystyle p_{A}(lambda )=det(A-lambda I)! }p_A(lambda) = det(A - lambda I) ! 是一个关于λ的多项式,称为A特征多项式。矩阵的特征值也就是其特征多项式的零点。求一个矩阵A的特征值可以通过求解方程pA(λ)=0{displaystyle p_{A}(lambda )=0} p_A(lambda) = 0 来得到。


A是一个n×n矩阵,则pA{displaystyle p_{A}}p_An次多项式,因而A最多有n个特征值。反过来,如果A的系数是在一个代数闭域里面(比如说复数域),那么代数基本定理说明这个方程刚好有n个根(如果重根也计算在内的话)。所有奇数次的多项式必有一个实数根,因此当n为奇数的时候,每个n维实系数矩阵至少有一个实数特征值。当矩阵系数是实数的时候,非实数的特征值会成共轭对出现。


一旦找到特征值λ,相应的特征向量就可以通过求解如下方程得到:


(A−λI)v=0 {displaystyle (A-lambda I)v=0! }{displaystyle (A-lambda I)v=0! }

实系数的矩阵不一定有实数特征值。比如对于以下的矩阵(表示二维平面上的顺时针90°的一个旋转变换):


[01−10]{displaystyle {begin{bmatrix}0&1\-1&0end{bmatrix}}}begin{bmatrix}0 & 1\ -1 & 0end{bmatrix}

其特征多项式是λ2+1{displaystyle lambda ^{2}+1}lambda^2+1,因此其特征值成复共轭对出现,分别是i和-i,而没有实数特征值。相应的特征向量也是非实数的。



数值计算



在实践中,大型矩阵的特征值无法通过特征多项式计算。计算该多项式本身相当费资源,而根的精确表达式对于高次的多项式来说很难计算和表达:阿貝爾-魯菲尼定理显示五次或更高次的多项式的根无法用n{displaystyle n}n次方根来简单表达。对于估算多项式的根的有效算法是有的,但特征值中的微小误差可以导致特征向量的巨大误差。因此,寻找特征多项式和特征值的一般算法,是迭代法。最简单的方法是幂法英语Power_method:取一个随机向量v{displaystyle v}v,然后计算如下的一系列单位向量



Av||Av||{displaystyle {frac {Av}{||Av||}}}frac{Av}{||Av||}, A2v||A2v||{displaystyle {frac {A^{2}v}{||A^{2}v||}}}frac{A^2v}{||A^2v||}, A3v||A3v||{displaystyle {frac {A^{3}v}{||A^{3}v||}}}frac{A^3v}{||A^3v||}, ...

这个序列几乎总是收敛于最大绝对值的特征值所对应的特征向量。这个算法很简单,但是本身不是很有用。但是,象QR算法这样的算法正是以此为基础的[10]



性质



代数重次


A的一个特征值λ的代数重数是λ作为A的特征多项式的根的次数;换句话说,若r是该多项式的一个根,它是一次多项式因子(λ - r)在特征多项式中在因式分解后中出现的次数。如果将代数重次计算在内的话,一个n×n矩阵有n个特征值,因为其特征多项式次数为n


一个代数重次1的特征值为“单特征值”。


在关于矩阵理论的条目中,可能会遇到如下的表示方法:


"一个矩阵A的特征值为4,4,3,3,3,2,2,1,"

表示4的代数重次为二,3的是三,2的是二,而1的是1。这样写是因为代数重次对于矩阵理论中的很多数学证明很重要而被大量使用。


和代数重数相对的是特征值的几何重数:特征值相对应的特征空间(也就是λI − A的零空间)的维数。代数重次也可以视为一种维数:它是相应广义特征空间的维数,也就是当自然数k足够大的时候矩阵(λI − Ak的零空间。也就是说,它是所有“广义特征向量”组成的空间,其中一个广义特征向量是任何一个如果λI − A作用连续作用足够多次就“最终”会变0的向量。任何特征向量都是一个广义特征向量,以此任一个特征空间都被包含于相应的广义特征空间。这给了一个几何重次总是小于或等于代数重次的简单证明。


例如:



A=[1101]{displaystyle A={begin{bmatrix}1&1\0&1end{bmatrix}}}{displaystyle A={begin{bmatrix}1&1\0&1end{bmatrix}}}

它只有一个特征值,也就是λ = 1。其特征多项式是1)2{displaystyle (lambda -1)^{2}}(lambda-1)^2,所以这个特征值代数重次为2。但是,相应特征空间是通常称为x轴的数轴,由向量[10]{displaystyle {begin{bmatrix}1\0end{bmatrix}}} begin{bmatrix} 1 \ 0  end{bmatrix} 线性生成,所以几何重次只是1。


广义特征向量可以用于计算一个矩阵的若尔当标准型(参看下面的讨论)。若尔当块通常不是对角化而是幂零的这个事实与特征向量和广义特征向量之间的区别直接相关。



一般矩阵分解定理


如上所述,谱定理表明正方形矩阵可以对角化当且仅当它是正规的。对于更一般的未必正规的矩阵,我们有类似的结果。当然在一般的情况,有些要求必须放松,例如酉等价性或者最终的矩阵的对角性。所有这些结果在一定程度上利用了特征值和特征向量。下面列出了一些这样的结果:




  • 舒尔三角形式表明任何矩阵酉等价于一个上三角矩阵;


  • 奇异值分解, A=UΣV∗{displaystyle A=USigma V^{*}}A=U Sigma V^*其中Σ{displaystyle Sigma }Sigma 为对角阵,而U,V为酉矩阵。A=UΣV∗{displaystyle A=USigma V^{*}}A=U Sigma V^*的对角线上的元素非负,而正的项称为A的奇异值。这对非正方形矩阵也成立;


  • 若尔当标准型,其中A=UΛU−1{displaystyle A=ULambda U^{-1}}A=U Lambda U^{-1}其中Λ{displaystyle Lambda }Lambda 不是对角阵,但是分块对角阵,而U{displaystyle U} U 是酉矩阵。若尔当块的大小和个数由特征值的几何和代数重次决定。若尔当分解是一个基本的结果。从它可以立即得到一个正方形矩阵可以完全用它的特征值包括重次来表述,最多只会相差一个酉等价。这表示数学上特征值在矩阵的研究中有着极端重要的作用。

  • 作为若尔当分解的直接结果,一个矩阵A可以“唯一”地写作A = S + N其中S可以对角化,N是幂零的(也即,对于某个qNq=0),而SN可交换(SN=NS)。

  • 任何可逆矩阵A可以唯一地写作A = SJ,其中S可对角化而J是么幂矩阵(也即,使得特征多项式是(λ-1)的幂,而SJ可交换)。



特征值的一些另外的属性


谱在相似变换下不变:矩阵AP-1AP有相同的特征值,这对任何矩阵A和任何可逆矩阵P都成立。谱在转置之下也不变:矩阵AAT有相同的特征值。


因为有限维空间上的线性变换是双射当且仅当它是单射,一个矩阵可逆当且仅当所有特征值都不是0。


若尔当分解的一些更多的结果如下:



  • 一个矩阵是對角矩陣当且仅当代数和几何重次对于所有特征值都相等。特别的有,一个n×n矩阵如果有n不同特征值,则总是可以对角化的。

  • 矩阵作用的向量空间可以视为其广义特征向量所撑成的不变子空间的直和。对角线上的每个块对应于该直和的一个子空间。若一个块是对角化的,其不变子空间是一个特征空间。否则它是一个广义特征空间,如上面所定义;

  • 因为跡,也就是矩阵主对角线元素之和,在酉等价下不变,若尔当标准型说明它等于所有特征值之和;

  • 类似的有,因为三角矩阵的特征值就是主对角线上的项,其行列式等于等于特征值的乘积(按代数重次计算出现次数)。


正规矩阵的一些子类的谱的位置是:



  • 一个埃尔米特矩阵(A = A*)的所有特征值是实数。进一步的有,所有正定矩阵(v*Av > 0 for all vectors v)的所有特征值是正数;

  • 所有斜埃尔米特矩阵(A = −A*)的特征值是纯虚数;

  • 所有酉矩阵(A-1 = A*)的特征值绝对值为1;


假设A是一个m×n矩阵,其中mn,而B是一个n×m矩阵。则BA有和AB相同的特征值加上nm个等于0的特征值。


每个矩阵可以被赋予一个算子范数。算子范数是其特征值的模的上确界,因而也是它的谱半径。该范数直接和计算最大模的特征值的幂法直接相关。当一个矩阵是正规的,其算子范数是其特征值的最大模,并且独立于其定义域的范数。



共轭特征向量


一个共轭特征向量或者说共特征向量是一个在变换下成为其共轭乘以一个标量的向量,其中那个标量称为该线性变换的共轭特征值或者说共特征值。共轭特征变量和共轭特征值代表了和常规特征向量和特征值相同的信息和含义,但是在交替坐标系统被使用的时候出现。对应的方程是:


Av=λv∗.{displaystyle Av=lambda v^{*}.,}Av = lambda v^*.,

例如,在相干电磁散射理论中,线性变换A代表散射物体施行的作用,而特征向量表示电磁波的极化状态。在光学中,坐标系统按照波的观点定义,称为前向散射对齐(FSA),从而导致了常规的特征值方程,而在雷达中,坐标系统按照雷达的观点定义,称为后向散射对齐(BSA),从而给出了共轭特征值方程。



广义特征值


一个广义特征值(第二种意义)有如下形式


Av=λBv{displaystyle Av=lambda Bvquad quad } Av = lambda B v quad quad

其中AB为矩阵。其广义特征值(第二种意义)λ
可以通过求解如下方程得到


det(A−λB)=0.{displaystyle det(A-lambda B)=0.,}det(A - lambda B)=0.,

形如A−λB{displaystyle A-lambda B}A - lambda B的矩阵的集合,其中λ{displaystyle lambda } lambda 是一个复数,称为一个“束(pencil)”。若B可逆,则最初的问题可以写作如下形式


B−1Av=λv{displaystyle B^{-1}Av=lambda vquad quad } B^{-1}Av = lambda v quad quad

也即标准的特征值问题。但是,在很多情况下施行逆操作是不可取的,而广义特征值问题应该如同其原始表述来求解。


如果AB是实系数的对称矩阵,则特征值为实数。这在上面的第二种等价表述中并不明显,因为矩阵B−1A{displaystyle B^{-1}A} B^{-1}A未必是对称的。


这里的一个例子是分子轨道应用如下。



系数为环中元素


在方矩阵A,其系数属于一个环的情况,λ称为一个右特征值如果存在一个列向量x使得Axx,或者称为一个左特征值如果存在非零行向量y使得yA=yλ。


若环是可交换的,左特征值和右特征值相等,并简称为特征值。否则,例如当环是四元数集合的时候,它们可能是不同的。



无穷维空间


若向量空间是无穷维的,特征值的概念可以推广到谱的概念。谱是标量λ的集合,对于这些标量,(T−λ)−1{displaystyle left({mathcal {T}}-lambda right)^{-1}}left({mathcal  {T}}-lambda right)^{{-1}}没有定义,也就是说它们使得T−λ{displaystyle {mathcal {T}}-lambda }mathcal{T}-lambda没有有界逆。


很明显,如果λ是T的特征值,λ位于T的谱内。一般来讲,反过来并不成立。在希尔伯特空间或者巴拿赫空间上有一些算子完全没有特征向量。这可以从下面的例子中看到。在希尔伯特空间2(Z){displaystyle ell ^{2}(mathbf {Z} )}ell^2(mathbf{Z})(所有标量级数的空间,每个级数a−1,a0,a1,a2,…{displaystyle dots a_{-1},a_{0},a_{1},a_{2},dots }dots a_{-1}, a_0, a_1,a_2,dots使得|a−1|2+|a0|2+|a1|2+|a2|2+…{displaystyle dots |a_{-1}|^{2}+|a_{0}|^{2}+|a_{1}|^{2}+|a_{2}|^{2}+dots }dots |a_{-1}|^2 + |a_0|^2 + |a_1|^2 + |a_2|^2 +dots收敛)上的双向平移没有特征向量却有谱值。


在无穷维空间,有界算子的谱系总是非空的,这对无界自共轭算子也成立。通过检验谱测度,任何有界或无界的自共轭算子的谱可以分解为绝对连续,离散,和孤立部分。指数增长或者衰减是连续谱的例子,而振动弦驻波是离散谱例子。氢原子是两种谱都有出现的例子。氢原子的束缚态对应于谱的离散部分,而离子化状态用连续谱表示。



应用



薛定谔方程




图3、電子的機率密度繪圖。橫向展示不同的角量子數,豎向展示不同的能級(n)。束缚於氢原子内的电子的波函数可以视为氢原子的哈密顿算子的特征向量,同时也是角动量算子的一个特征向量。它们对应於能级(递增:n=1,2,3,...)和角动量(递增:s, p, d,...)的特征值。这里绘出了波函数绝对值的平方。更亮区域对应于位置的量子测量的更高機率密度。位於每幅图的中心是原子核,是一个质子



在量子力学中,不含时薛定谔方程是一个以微分算子代表的变换T{displaystyle T,}T,的特征值方程,能够描述一个粒子的量子行为:


E=EΨE{displaystyle HPsi _{E}=EPsi _{E},}HPsi_E = EPsi_E,

其中,H{displaystyle H,}H,是哈密顿算子,一个二阶微分算子,ΨE{displaystyle Psi _{E},}Psi_E,是描述粒子的量子行为的波函数,对应于特征值E{displaystyle E,}E,的特征函数,该值可以解释为粒子的能量。


假设,我们只想寻找薛定谔方程的束缚态(bound state)解,那麼,可以在平方可积函数的空间中寻找ΨE{displaystyle Psi _{E},}Psi_E,。由於这个空间是希尔伯特空间,有一个定义良好的标量积,我们可以引入一个基集合,然后表示ΨE{displaystyle Psi _{E},}Psi_E,H{displaystyle H,}H,为一个一维数组和一个矩阵。这样,我们能够用矩阵形式表达薛定谔方程。(图3表示氢原子哈密顿算子的最低能级特征函数。)


狄拉克标记经常在这个上下文中使用,以强调量子态ΨE{displaystyle Psi _{E},}Psi_E,的态向量E⟩{displaystyle |Psi _{E}rangle ,}|Psi_Erangle,和它表示於位置空间的波函数ΨE(x){displaystyle Psi _{E}(x),}Psi_E(x),之间的区别。采用狄拉克标记,薛定谔方程写为


H|ΨE⟩=E|ΨE⟩{displaystyle H|Psi _{E}rangle =E|Psi _{E}rangle ,}H|Psi_Erangle = E|Psi_Erangle,

并称E⟩{displaystyle |Psi _{E}rangle ,}|Psi_Erangle,H{displaystyle H,}H,的一个本征态H{displaystyle H,}H,有时候在入门级课本中写作H^{displaystyle {hat {H}},}hat{H},),H{displaystyle H,}H,是一个自伴算子(参看可观察量)。在上述方程中,H|ΨE⟩{displaystyle H|Psi _{E}rangle ,}H|Psi_Erangle,理解为通过作用H{displaystyle H,}H,E⟩{displaystyle |Psi _{E}rangle ,}|Psi_Erangle,得到的一个新的态向量。



分子轨域


在量子力学中,特别是在原子物理和分子物理中,在Hartree-Fock理论下,原子轨域和分子轨域可以定义为Fock算子的特征向量。相应的特征值通过Koopmans定理可以解释为电离势能。在这个情况下,特征向量一词可以用于更广泛的意义,因为Fock算子显式地依赖于轨道和它们地特征值。如果需要强调这个特点,可以称它为隐特征值方程。这样地方程通常采用迭代程序求解,在这个情况下称为自洽场方法。在量子化学中,经常会把Hartree-Fock方程通过非正交基集合来表达。这个特定地表达是一个广义特征值问题称为Roothaan方程。



因子分析


在因素分析中,一个協方差矩陣的特征向量对应于因素,而特征值是因素负载。因素分析是一种统计学技术,用于社会科学和市场分析、产品管理、运筹规划和其他处理大量数据的应用科学。其目标是用称为因素的少量的不可观测随机变量来解释在一些可观测随机变量中的变化。可观测随机变量用因素的线性组合来建模,再加上“残差项。



振動分析









懸臂樑的幾種振動模態



側向彎曲





扭轉彎曲





垂直彎曲



在對於多自由度機械結構作振動分析時,常常會遇到特徵值問題。經過仔細解析,求得的特徵值會給出振動的自然頻率,而特徵向量則會給出振動模態的振動行為。由於特徵向量的相互正交性質,允許對應的微分方程式能夠解耦合(decouple),整個系統可以表示為特徵向量的線性總和。有限元分析是一種非常優良的方法,時常用來解析複雜結構的特徵值問題。



特征脸




图4. 特征脸是特征变量的例子


在图像处理中,脸部图像的处理可以看作分量为每个像素的灰度的向量。该向量空间的维数是像素的个数。一个标准化面部图形的一个大型数据集合的協方差矩陣的特征向量称为特征脸。它们对于将任何面部图像表达为它们的线性组合非常有用。特征脸提供了一种用于识别目的的数据压缩的方式。在这个应用中,一般只取那些最大特征值所对应的特征脸[11]



慣性張量


採用直角坐標系的三個坐標軸為參考軸,一個剛體的慣性張量I{displaystyle {mathcal {I}},}mathcal{I},,以矩陣形式表達為



I=[IxxIxyIxzIyxIyyIyzIzxIzyIzz]{displaystyle {mathcal {I}}={begin{bmatrix}I_{xx}&I_{xy}&I_{xz}\I_{yx}&I_{yy}&I_{yz}\I_{zx}&I_{zy}&I_{zz}end{bmatrix}},}mathcal{I} = begin{bmatrix}<br />
I_{xx} & I_{xy} & I_{xz} \<br />
I_{yx} & I_{yy} & I_{yz} \<br />
I_{zx} & I_{zy} & I_{zz}end{bmatrix},

其中,矩陣的元素以方程式表達為




Ixx =def ∫y2+z2 dmIxy=Iyx =def −xy dm{displaystyle I_{xx} {stackrel {mathrm {def} }{=}} int y^{2}+z^{2} dmqquad qquad I_{xy}=I_{yx} {stackrel {mathrm {def} }{=}} -int xy dm,}I_{xx} stackrel{mathrm{def}}{=} int  y^2+z^2 dmqquadqquad <br />
I_{xy}=I_{yx} stackrel{mathrm{def}}{=} - int  xy dm,


Iyy =def ∫x2+z2 dmIxz=Izx =def −xz dm{displaystyle I_{yy} {stackrel {mathrm {def} }{=}} int x^{2}+z^{2} dmqquad qquad I_{xz}=I_{zx} {stackrel {mathrm {def} }{=}} -int xz dm,}I_{yy} stackrel{mathrm{def}}{=} int x^2+z^2 dmqquadqquad <br />
I_{xz}=I_{zx} stackrel{mathrm{def}}{=} - int xz dm,


Izz =def ∫x2+y2 dmIyz=Izy =def −yz dm{displaystyle I_{zz} {stackrel {mathrm {def} }{=}} int x^{2}+y^{2} dmqquad qquad I_{yz}=I_{zy} {stackrel {mathrm {def} }{=}} -int yz dm,}I_{zz} stackrel{mathrm{def}}{=} int x^2+y^2 dmqquadqquad <br />
I_{yz}=I_{zy} stackrel{mathrm{def}}{=} - int yz dm,


(x, y, z){displaystyle (x, y, z),}(x, y, z),是剛體內部的微小體積元dm{displaystyle dm,}dm,的位置。


慣性張量I{displaystyle {mathcal {I}},}mathcal{I},是個實值的三維對稱矩陣,對角元素Ixx{displaystyle I_{xx},}I_{xx},Iyy{displaystyle I_{yy},}I_{yy},Izz{displaystyle I_{zz},}I_{zz},分別為剛體對於x-軸、y-軸、z-軸的轉動慣量。非對角元素ββ{displaystyle I_{alpha beta },alpha neq beta ,}I_{alphabeta}, alphanebeta,是剛體對於α{displaystyle alpha ,}alpha ,-軸和β{displaystyle beta ,}beta,-軸的慣量積。根据谱定理,可以使慣性張量成為一個對角矩陣[12]。所得到的三個特徵值必是正實值;三個特徵向量必定互相正交。


換另外一種方法,我們需要求解特徵方程式



I ωω{displaystyle {mathcal {I}} {boldsymbol {omega }}=lambda ;{boldsymbol {omega }},}mathcal{I} boldsymbol{omega}=lambda;boldsymbol{omega},

也就是以下行列式等於零的的三次方程式:



|Ixx−λIxyIxzIyxIyy−λIyzIzxIzyIzz−λ|=0{displaystyle {begin{vmatrix}I_{xx}-lambda &I_{xy}&I_{xz}\I_{yx}&I_{yy}-lambda &I_{yz}\I_{zx}&I_{zy}&I_{zz}-lambda end{vmatrix}}=0,}begin{vmatrix}<br />
I_{xx} - lambda & I_{xy} & I_{xz} \<br />
I_{yx} & I_{yy} - lambda & I_{yz} \<br />
I_{zx} & I_{zy} & I_{zz} - lambda end{vmatrix}=0,

這方程式的三個根λ1{displaystyle lambda _{1},}lambda_1,λ2{displaystyle lambda _{2},}lambda_2,λ3{displaystyle lambda _{3},}lambda_3,都是正實的特徵值。將特徵值代入特徵方程式,再加上方向餘弦(directional cosine)方程式,



ωx2+ωy2+ωz2=1{displaystyle omega _{x}^{2}+omega _{y}^{2}+omega _{z}^{2}=1,}omega_x^2+omega_y^2+omega_z^2=1,。就可以求到特徵向量ω^1{displaystyle {hat {boldsymbol {omega }}}_{1},}hat{boldsymbol{omega}}_1,ω^2{displaystyle {hat {boldsymbol {omega }}}_{2},}hat{boldsymbol{omega}}_2,ω^3{displaystyle {hat {boldsymbol {omega }}}_{3},}hat{boldsymbol{omega}}_3,。這些特徵向量都是剛體的慣量主軸;而這些特徵值則分別是剛體對於慣量主軸的主轉動慣量


应力张量


在固体力学中,应力张量是对称的,因而可以分解为对角张量,其特征值位于对角线上,而特征向量可以作为基。因为它是对角阵,在这个定向中,应力张量没有剪切分量;它只有主分量。



图的特征值


在谱系图论中,一个图的特征值定义为图的邻接矩阵A的特征值,或者(更多的是)图的拉普拉斯算子矩阵I−T−1/2AT−1/2{displaystyle I-T^{-1/2}AT^{-1/2}}I-T^{-1/2}AT^{-1/2},其中T是对角阵表示每个顶点的度数,在T−1/2{displaystyle T^{-1/2}}T^{-1/2}中,0用于取代0−1/2{displaystyle 0^{-1/2}}0^{-1/2}。图的主特征向量用于测量其顶点的中心度。Google的PageRank算法就是一个例子。www图的修正邻接矩阵的主特征向量的分量给出了页面评分。



注釋





  1. ^ 在这个上下文,只考虑从一个向量空间到自身的线性变换。


  2. ^ 因为所有线性变换保持零向量不变,它不作为一个特征向量。




参考文献



引用





  1. ^ Steven A. Leduc, Linear Algbra,第251-252页


  2. ^ 2.02.12.2 Steven A. Leduc, Linear Algbra,第293页


  3. ^ Strang Gilbert, Introduction to Linear Algbra,第245页


  4. ^ Steven A. Leduc, Linear Algbra,第307-308页


  5. ^ Steven Roman, Advanced Linear Algbra,第189页


  6. ^ 李庆扬,王能超,易大义,《数值分析(第4版)》,第299-301页


  7. ^ Steven Roman,Advanced Linear Algbra,第186页


  8. ^ Strang Gilbert, Linear Algebra and its Applications,第245页


  9. ^ 王萼芳. 《高等代数教程》. 清华大学出版社. 1997. ISBN 9787302024781. ,第233-234页


  10. ^ Trefethen, Lloyd N.; Bau, David, Numerical Linear Algebra, SIAM: pp. 211ff, 1997, ISBN 9780898713619  引文格式1维护:冗余文本 (link)
    Lloyd N. Trefethen and David Bau, Numerical Linear Algebra(SIAM, 1997)



  11. ^ Xirouhakis, Y.; G.Votsis and A. Delopoulos, Estimation of 3D Motion and Structure of Human Faces (PDF), Proc. of European Robotics, Intelligent Systems and Control Conference (EURISCON), Athens, Greece, 1998 


  12. ^ O'Nan, Michael. Linear Algebra. USA: Harcourt Brace Jovanovich, Inc. 1971: pp. 361. ISBN 0-15-518558-6 (英语).  引文格式1维护:冗余文本 (link)




书籍




  • (英文) Beezer, Robert A., A first course in linear algebra, Free online book under GNU licence, University of Puget Sound: p. 518, 2006, ISBN 9781616100049  引文格式1维护:冗余文本 (link)


  • (英文) Friedberg, Stephen H.; Insel, Arnold J.; Spence, Lawrence E., Linear algebra 2nd Edition, Englewood Cliffs, NJ 07632: Prentice Hall: p. 217f, 1989, ISBN 0-13-537102-3  引文格式1维护:冗余文本 (link)


  • (英文) Golub, Gene H.; Van Loan, Charles F., chapter 7, 8, Matrix computations 3rd Edition, Johns Hopkins University Press, Baltimore, MD, 1996, ISBN 978-0-8018-5414-9  引文格式1维护:冗余文本 (link)


  • (英文) Kuttler, Kenneth, An introduction to linear algebra (PDF), Online e-book in PDF format, Brigham Young University: p. 51, 2007  引文格式1维护:冗余文本 (link)


  • (英文)Meyer, Carl D., chapter 7, Matrix analysis and applied linear algebra, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, 2000, ISBN 978-0-89871-454-8 


  • (英文) Korn, Granino A.; Korn, Theresa M., Mathematical Handbook for Scientists and Engineers: Definitions, Theorems, and Formulas for Reference and Review 2 Revised Edition, Dover Publications: p. 1152, 2000, ISBN 0-486-41147-8  引文格式1维护:冗余文本 (link)


  • (英文) Gilbert Strang. Linear algebra and its applications. Thomson, Brooks/Cole, Belmont, CA. 2006. ISBN 9780534422004. 


  • (英文)Roger A. Horn and Charles R. Johnson. Matrix Analysis. Cambridge University Press. 1985. ISBN 0-521-30586-1. 


  • (英文) John B. Fraleigh and Raymond A. Beauregard. Linear Algebra 3rd edition. Addison-Wesley Publishing Company. 1995. ISBN 0-201-83999-7.  引文格式1维护:冗余文本 (link)


  • (英文) Claude Cohen-Tannoudji. Quantum Mechanics. Wiley. 1977. ISBN 0-471-16432-1. 


  • (英文) Gilbert Strang. Introduction to Linear Algebra Third Edition. Wellesley Cambridge Pr. 2003. ISBN 978-0-961-40889-3.  引文格式1维护:冗余文本 (link)


  • (英文) Steven A. Leduc. Linear Algebra Third Edition. Cliffs Notes. 1996. ISBN 978-0822053316.  引文格式1维护:冗余文本 (link)


  • (英文)Steven Roman. Advanced Linear Algebra. Springer. 2005. ISBN 0-387-24766-1. 


  • 李庆扬、王能超、易大义. 《数值分析(第4版)》. 清华大学出版社. ISBN 7302045615. 



外部連結




  • (英文)麻省理工学院线性代数教程录像,2005年春季学期 - 参看Eigenvalues and Eigenvectors(特征值与特征向量)一课


  • (英文)MathWorld:特征向量


  • (英文)某些数学词汇最早已知的使用:E - 见特征向量和相关术语


  • (英文)ARPACK求解大型特征值问题的FORTRAN子程序汇集


  • (英文)PlanetMath上Eigenvalue (of a matrix)的資料。


  • (英文)特征值和特征向量的在线计算器


  • (英文)在线矩阵计算器可以在线计算特征值,特征向量和矩阵的其它分解。





Comments

Popular posts from this blog

Information security

章鱼与海女图

Farm Security Administration