Gram–Schmidt-eljárás

A főként a lineáris algebrában és a numerikus analízisben használatos Gram–Schmidt-ortogonalizálás (avagy Gram–Schmidt-eljárás, esetleg Gram–Schmidt-féle ortogonalizálási eljárás) egy skalárszorzatos tér egy véges, lineárisan független {v_j} vektorrendszerét alakítja át egy olyan {u_j} vektorrendszerré, melynek elemei páronként merőlegesek egymásra (a skalárszorzatra vonatkozóan), más szóval ortogonálisak, és a két vektorrendszer ugyanazt az alteret feszíti ki az említett skalárszorzatos térben.^[1]

A módszert Jørgen Pedersen Gram és Erhard Schmidt után nevezték el, bár korábban Laplace-nál is szerepelt az eljárás.^[2] A Gram–Schmidt-ortogonalizálás egy általánosításának tekinthető a Lie-csoportok elméletében szereplő Iwasawa-dekompozíció.^[3]

Az eljárás alkalmazható például a reguláris mátrixok QR-felbontásánál.^[4]

Lebegőpontos számításokhoz kevéssé alkalmas, mivel a felhalmozódó kerekítési hibák miatt a kapott vektorok nem lesznek ortogonálisak. Egyes módosítások kiküszöbölik ezt a hibát, így alkalmassá téve a módszert ezekre a számításokra.

A Gram–Schmidt-eljárás

Az egydimenziós altérre vetítés

Pre-Hilbert-térben (skalárszorzatos térben) az u nemnulla vektor alterébe merőlegesen vetít a

{p r o j}_{𝐮} 𝐱 = ⟨ 𝐮, 𝐱 ⟩ \frac{𝐮}{‖ 𝐮 ‖^{2}}

leképezés, ahol <u, x> a két vektor skaláris szorzatát jelöli. A projekciótételből következik ugyanis, hogy pre-Hilbert-térben, ha létezik olyan y vektor az u kifeszítette altérben, hogy minden λ ∈ C(ill. R)-re

‖ 𝐱 - 𝐲 ‖ \leq ‖ 𝐱 - λ . 𝐮 ‖

akkor az ilyen y-t egyértelműen jellemzi az, hogy minden λ ∈ C (illetve R)-re:

⟨ 𝐱 - 𝐲, λ . 𝐮 ⟩ = 0

És valóban létezik ilyen y éspedig pont a fenti projekció, ugyanis

⟨ 𝐱 - ⟨ 𝐮, 𝐱 ⟩ \frac{𝐮}{‖ 𝐮 ‖^{2}}, λ . 𝐮 ⟩ = ⟨ 𝐱, λ . 𝐮 ⟩ - ⟨ 𝐮, 𝐱 ⟩ \frac{λ . 𝐮^{2}}{‖ 𝐮 ‖^{2}} = ⟨ 𝐱, λ . 𝐮 ⟩ - ⟨ λ . 𝐮, 𝐱 ⟩ \cdot 1 = 0

Az eljárás

A Gram–Schmidt-eljárás első lépése: vetítsük merőlegesen v₂-t v₁-re. Ekkor Span(v₁,v₂) = Span(v₁,v₂ - proj v₂) és az utóbbiak merőlegesek.

Legyen {v₁, ... , v_n } lineárisan független vektorrendszer. Azt az {u₁, ... , u_n } vektorrendszert, melynek elemei páronként merőlegesek és Span(v₁, ... , v_n) = Span(u₁, ... , u_n) (azaz ugyanazt az alteret feszítik ki, ugyanaz a generált Span(...) részalgebrájuk) a következőképpen kapjuk. Legyen u₁=v₁. Vetítsük v₂-t merőlegesen u₁-re, legyen ez w₂. Ekkor u₂ = v₂ – w₂. Tegyük ezt v₃-mal és u₁-vel illetve u₂-vel ... Ha ortonormált bázist akarunk, akkor osszuk le az u_k-kat a hosszukkal.

	$𝐮_{1} = 𝐯_{1},$		$𝐞_{1} = \frac{𝐮_{1}}{‖ 𝐮_{1} ‖}$
	$𝐮_{2} = 𝐯_{2} - {p r o j}_{𝐮_{1}} 𝐯_{2},$		$𝐞_{2} = \frac{𝐮_{2}}{‖ 𝐮_{2} ‖}$
	$𝐮_{3} = 𝐯_{3} - {p r o j}_{𝐮_{1}} 𝐯_{3} - {p r o j}_{𝐮_{2}} 𝐯_{3},$		$𝐞_{3} = \frac{𝐮_{3}}{‖ 𝐮_{3} ‖}$
	$𝐮_{4} = 𝐯_{4} - {p r o j}_{𝐮_{1}} 𝐯_{4} - {p r o j}_{𝐮_{2}} 𝐯_{4} - {p r o j}_{𝐮_{3}} 𝐯_{4},$		$𝐞_{4} = \frac{𝐮_{4}}{‖ 𝐮_{4} ‖}$
	$⋮$		$⋮$
	$𝐮_{n} = 𝐯_{n} - \sum_{k = 1}^{n - 1} {p r o j}_{𝐮_{k}} 𝐯_{n},$		$𝐞_{n} = \frac{𝐮_{n}}{‖ 𝐮_{n} ‖}$

Helyesség

Annak az igazolása, hogy az eljárás valóban a kívánt eredményt adja a következő.^[5]

Először belátjuk, hogy az {u_k} vektorrendszer bázisa a {v_k} vektorrendszer által kifeszített L lineáris altérnek. Mivel L dimenziója a feltevés miatt éppen |{v_k}| = n, ezért elég belátni, hogy {u_k} generálja L-et. Tudjuk:

𝐮_{1} = 𝐯_{1}

𝐮_{2} = 𝐯_{2} - λ_{21} 𝐮_{1}

𝐮_{3} = 𝐯_{3} - λ_{32} 𝐮_{2} - λ_{31} 𝐮_{1}

⋮

𝐮_{n} = 𝐯_{n} - \sum_{k = 1}^{n - 1} λ_{n k} 𝐮_{k}

alkalmas λ_ij számokkal. Valójában tetszőleges λ_ij-kre generálja {u_k} az L-et, mert minden k-ra v_k előáll az u₁, ... , u_k-k lineáris kombinációjaként, azaz előállítják az összes bázisvektort, melyek viszont előállítják L összes elemét.

Másodszor belátjuk, hogy minden k = 1, ..., n-re az algoritmus által előállított {u₁,...,u_k} ortogonális, azaz

⟨ 𝐮_{i}, 𝐮_{j} ⟩ {\begin{matrix} \neq 0, & h a & i = j \\ = 0, & h a & i \neq j \end{matrix}

k=1 esetén az egyetlen nemnulla u teljesíti az ortogonalitási kritériumot. Ha 1, ..., k–1 már teljesíti a páronkénti ortogonalitást, akkor az u_k vektor mindegyik addigira merőleges, mert

⟨ 𝐮_{i}, 𝐮_{k} ⟩ = ⟨ 𝐮_{i}, 𝐯_{k} - \sum_{j = 1}^{k - 1} λ_{k j} 𝐮_{j} ⟩ = ⟨ 𝐮_{i}, 𝐯_{k} ⟩ - \sum_{j = 1}^{k - 1} λ_{k j} ⟨ 𝐮_{i}, 𝐮_{j} ⟩ =

= ⟨ 𝐮_{i}, 𝐯_{k} ⟩ - λ_{k i} ⟨ 𝐮_{i}, 𝐮_{i} ⟩ = ⟨ 𝐮_{i}, 𝐯_{k} ⟩ - \frac{⟨ 𝐮_{i}, 𝐯_{k} ⟩}{‖ 𝐮_{i} ‖^{2}} ⟨ 𝐮_{i}, 𝐮_{i} ⟩ = 0

,

hiszen az algoritmusból kiolvasva éppen

λ_{k i} = \frac{⟨ 𝐮_{i}, 𝐯_{k} ⟩}{‖ 𝐮_{i} ‖^{2}}

.

Megjegyzések

Az eljárás általános k-adik lépésének formuláját így is írhatjuk:

𝐯_{k} = 𝐮_{k} + \sum_{i = 1}^{k - 1} {p r o j}_{𝐮_{i}} 𝐯_{k}

.

Eszerint ha már megvan az {u₁, ..., u_k–1} ortogonális rendszer, akkor a k-adik lépésben nem mást teszünk, mint vesszük a v_k vektor új, már meglévő báziselemekre eső merőleges vetületét és kiválasztjuk, hogy melyik u_k vektor az, amelyiket a vetületekhez adva v_k előáll. Míg a projekciótétel, lévén tiszta egzisztenciatétel, csak azt állítja, hogy létezik ilyen vektor, addig a Gram–Schmidt-eljárás konstruktívan adja meg a vetületet, éspedig:

𝐦_{0} = 𝐯_{k} - 𝐮_{k} = \sum_{i = 1}^{k - 1} {p r o j}_{𝐮_{i}} 𝐯_{k}

.

A helyességi gondolatmenetben pont azt látjuk be, hogy a v_k – m₀ vektor merőleges a Span({u₁, ..., u_k–1}) altérre, hisz mindegyik bázisvektorára merőleges.

Végtelen dimenziós altér esetén szintén alkalmazható az eljárás, azzal az eredménnyel, hogy az előállított (u₁, ..., u_k, ...) sorozatban bármely k-ig az u₁, ..., u_k vektorok páronként ortogonálisak. Itt a függetlenség azt jelenti, hogy egy elem sem fekszik a korábbiak lineáris burkában. Megszámlálható esetben (szeperábilis Hilbert-terekben) az ortogonalizáció visszavezethető véges esetre. Általában minden független rendszer a jólrendezési tétel szerint felírható egy ${(𝐰_{α})}_{α < d}$ sorozatként, ahol $d$ kardinális szám, és $α$ ordinális szám. Ha a rendszer lineáris burka sűrű, akkor $d$ a Hilbert-tér dimenziója. Jelölje $H$ a teret, és legyen $π_{A} : H \to A$ egy ortogonális projekció az $A$ altérre, ami a teljesség miatt mindig létezik, és $\hat{𝐱}$ legyen az $\frac{𝐱}{‖ 𝐱 ‖}$ normált vektor. Így adódik egy ${(𝐯_{α})}_{α < d}$ ortonormált rendszer, ahol

A_{α} := \overline{span ({𝐰_{β} : β < α})}

𝐯_{α} := \hat{(𝐰_{α} - π_{A_{α}} (𝐰_{α}))}

.

Transzfinit indukcióval megmutatható, hogy $A_{α} = \overline{span ({𝐯_{β} : β < α})}$ , továbbá $α = d$ . Explicit transzfinit rekurzióval:

𝐯_{α} := \hat{(𝐰_{α} - \sum_{β < α} ⟨ 𝐯_{β}, 𝐰_{α} ⟩ \cdot 𝐯_{β})}

A Bessel-egyenlőtlenség miatt az összeg jóldefiniált (legfeljebb megszámlálható sok elem különbözik nullától).

Lineárisan összefüggő vektorrendszerre alkalmazva az eljárást az eredményben előbb-utóbb előáll a 0 vektor. Ha ugyanis a k-adik vektor már az előzőek által kifeszített altérben van, akkor a vektorból az altérre eső vetületét kivonva a 0-t kapjuk. A lineárisan összefüggő vektorok által kifeszített alteret is lehet azonban ortogonális vektorokkal előállítani, éspedig úgy, hogy az algoritmusban minden új bázisvektor esetén megnézzük, hogy 0-t ad-e és ha igen, a régi vektort elvetjük és folytatjuk egy másik elem előállításával. Ekkor az algoritmus eredménye annyi vektor lesz, amennyi az eredeti vektorrendszer rangja volt.

Az eljárás alatt az addig kiszámolt $𝐯_{1}, \dots, 𝐯_{i}$ vektorok ugyanazt az alteret feszítik ki, mint az eredeti $𝐰_{1}, \dots, 𝐰_{i}$ vektorok. A $𝐯_{1}, \dots, 𝐯_{i}$ vektorok ortogonális bázist alkotnak a megfelelő altérben. Más szóval, az egyik rendszert a másik rendszer bázisában jobb felső háromszögmátrix fejezi ki. Ennek a mátrixnak pozitív a determinánsa, így az eredményként kapott ortogonális bázis irányítása megegyezik az eredetivel. Ha az ortonormált $𝐯_{1}, \dots, 𝐯_{n}$ vektorokból, mint oszlopokból megalkotjuk a Q mátrixot, és az eredeti $𝐰_{1}, \dots, 𝐰_{n}$ vektorokból az A mátrixot, akkor van egy R háromszögmátrix, úgy, hogy A=QR, tehát egy QR-felbontáshoz jutunk.

QR-felbontás más módszerekkel is meghatározható, így Givens-forgatásokkal vagy Householder-tükrözésekkel.

Kézzel számoláskor egyszerűbb, ha először csak ortogonalizálunk, és csak a végén normalizálunk. Így elkerüljük a kétszeres normalizációt, és gyakran egyszerűbb értékekkel kell számolni. Kifizetődő az ortogonalizáció előtt egy Gauß-eliminációt is elvégezni.

Példa

Vegyük az

A = [\begin{matrix} 1 & 2 & 1 \end{matrix}]

mátrix magterét^[6] mint R³ alterét és adjunk meg benne egy ortogonális bázist!

A feladatot az

𝐚 𝐛 = \sum_{i = 1}^{3} 𝐚_{i} 𝐛_{i}

sztenderd skalárszorzat szerint végezzük el!

Megoldás:

A dimenziótétel szerint a magtér kétdimenziós, ugyanis dim(R³) = dim Ker A + dim Im A, de A oszlopai skalárok, így dim Im A = 1. A kétdimenziós magtérnek kételemű a bázisa. A magtér egy alkalmas bázisa lehet az {v₁ = (2, -1, 0), v₂ = (1, 0, -1)}, mert a két vektor nyilvánvalóan lineárisan független, és mindkettő magtérbeli, mivel

[\begin{matrix} 1 & 2 & 1 \end{matrix}] \cdot [\begin{matrix} 2 & 1 \\ - 1 & 0 \\ 0 & - 1 \end{matrix}] = [\begin{matrix} 0 & 0 \end{matrix}]

.

Feladatunk most már a bázisvektorok oszlopmátrixának ortogonalizálása. Alkalmazzuk az eljárást {v₁, v₂}-re!

𝐮_{1} = 𝐯_{1} = [\begin{matrix} 2 \\ - 1 \\ 0 \end{matrix}]

,

{p r o j}_{𝐮_{1}} 𝐯_{2} = ⟨ 𝐮_{1}, 𝐯_{2} ⟩ \frac{𝐮_{1}}{‖ 𝐮_{1} ‖^{2}} = \frac{2 \cdot 1 + (- 1) \cdot 0 + 0 \cdot (- 1)}{2^{2} + (- 1)^{2} + 0^{2}} [\begin{matrix} 2 \\ - 1 \\ 0 \end{matrix}] = \frac{2}{5} \cdot [\begin{matrix} 2 \\ - 1 \\ 0 \end{matrix}] = [\begin{matrix} \frac{4}{5} \\ - \frac{2}{5} \\ 0 \end{matrix}]

,

𝐮_{2} = 𝐯_{2} - {p r o j}_{𝐮_{1}} 𝐯_{2} = [\begin{matrix} 1 \\ 0 \\ - 1 \end{matrix}] - [\begin{matrix} \frac{4}{5} \\ - \frac{2}{5} \\ 0 \end{matrix}] = [\begin{matrix} \frac{1}{5} \\ \frac{2}{5} \\ - 1 \end{matrix}]

.

Ellenőrizzük vektoriális szorzattal! Mivel

K e r A = {(x, y, z) \in 𝐑^{3} ∣ x + 2 y + z = 0}

,

ezért nincs más feladatunk, mint a

x + 2 y + z = 0

síkban lévő két merőleges vektort mondanunk. Legyen ugyanaz az első:

𝐮_{1} = [\begin{matrix} 2 \\ - 1 \\ 0 \end{matrix}]

,

ez valóban a síkban van. Most vegyük az (1, 2, 1) normálvektor^[7] és az előbbi vektoriális szorzatát:

𝐮_{1} = | \begin{matrix} 𝐢 & 𝐣 & 𝐤 \\ 1 & 2 & 1 \\ 2 & - 1 & 0 \end{matrix} | = 1 𝐢 + 2 𝐣 - 5 𝐤

,

ami valóban párhuzamos a fent kapott vektorral, éspedig az 5-szöröse. Ebből is világosan látható, hogy az ortogonális vektorrendszer nem egyértélmű (még akkor sem, ha egységvektorokat választunk bázisnak).

Ortonormalizáció

Az algoritmus egy változata nemcsak ortogonalizál, hanem normalizál is, így a $𝐰_{1}, \dots, 𝐰_{n}$ független vektorokból ortonormált rendszert kapunk, ami ugyanazt az alteret generálja, mint a kiindulási vektorok.

A $𝐯_{1}, \dots, 𝐯_{n}$ vektorok ortonormált rendszert alkotnak, hogyha az ortogonalizáció után normáljuk is őket:

𝐯_{1} = \frac{𝐰_{1}}{‖ 𝐰_{1} ‖}

(az első vektor normalizációja)

𝐯_{2}^{'} = 𝐰_{2} - ⟨ 𝐯_{1}, 𝐰_{2} ⟩ \cdot 𝐯_{1}

(a második vektor ortogonalizációja)

𝐯_{2} = \frac{𝐯_{2}^{'}}{‖ 𝐯_{2}^{'} ‖}

(a második vektorból kapott

𝐯_{2}^{'}

vektor normalizációja)

𝐯_{3}^{'} = 𝐰_{3} - ⟨ 𝐯_{1}, 𝐰_{3} ⟩ \cdot 𝐯_{1} - ⟨ 𝐯_{2}, 𝐰_{3} ⟩ \cdot 𝐯_{2}

(a harmadik vektor ortogonalizációja)

𝐯_{3} = \frac{𝐯_{3}^{'}}{‖ 𝐯_{3}^{'} ‖}

(a harmadik vektorból kapott

𝐯_{3}^{'}

vektor normalizációja)

⋮

𝐯_{n}^{'} = 𝐰_{n} - \sum_{i = 1}^{n - 1} ⟨ 𝐯_{i}, 𝐰_{n} ⟩ \cdot 𝐯_{i}

(az

n

-edik vektor ortogonalizációja)

𝐯_{n} = \frac{𝐯_{n}^{'}}{‖ 𝐯_{n}^{'} ‖}

(a

𝐯_{n} = \frac{𝐯_{n}^{'}}{‖ 𝐯_{n}^{'} ‖}

-edik vektorból kapott

𝐯_{n}^{'}

vektor normalizációja)

Másként, a $𝐯_{j}$ és a $𝐯_{j}^{'}$ vektorok, ahol $j = 1, 2, \dots, n$ , rekurzívan is definiálhatók:

𝐯_{j}^{'} = 𝐰_{j} - \sum_{i = 1}^{j - 1} ⟨ 𝐯_{i}, 𝐰_{j} ⟩ \cdot 𝐯_{i}

és

𝐯_{j} = \frac{𝐯_{j}^{'}}{‖ 𝐯_{j}^{'} ‖}

Általában nem kapunk kitüntetett rendszert. A jobb- vagy balsodrású rendszerhez először rendezni kell a vektorokat.

Példa

$ℝ^{2}$ -ben a $⟨ \cdot, \cdot ⟩$ skalárszorzattal adva van a következő bázis:

𝐰_{1} = (\begin{matrix} 3 \\ 1 \end{matrix}), 𝐰_{2} = (\begin{matrix} 2 \\ 2 \end{matrix})

Ezekből kiszámítunk egy $𝐯_{1}$ és $𝐯_{2}$ vektort, melyek $ℝ^{2}$ egy ortonormált bázisát alkotják.

𝐯_{1} = \frac{𝐰_{1}}{‖ 𝐰_{1} ‖} = \frac{1}{\sqrt{10}} \cdot (\begin{matrix} 3 \\ 1 \end{matrix})

𝐯_{2}^{'} = 𝐰_{2} - ⟨ 𝐯_{1}, 𝐰_{2} ⟩ \cdot 𝐯_{1} = (\begin{matrix} 2 \\ 2 \end{matrix}) - \frac{1}{\sqrt{10}} \cdot ⟨ (\begin{matrix} 3 \\ 1 \end{matrix}), (\begin{matrix} 2 \\ 2 \end{matrix}) ⟩ \cdot \frac{1}{\sqrt{10}} (\begin{matrix} 3 \\ 1 \end{matrix}) = \frac{1}{5} (\begin{matrix} - 2 \\ 6 \end{matrix})

𝐯_{2} = \frac{𝐯_{2}^{'}}{‖ 𝐯_{2}^{'} ‖} = \sqrt{\frac{25}{40}} \cdot \frac{1}{5} (\begin{matrix} - 2 \\ 6 \end{matrix}) = \frac{1}{\sqrt{10}} \cdot (\begin{matrix} - 1 \\ 3 \end{matrix})

Jegyzetek

Sablon:Jegyzetek

Források

Freud Róbert: Lineáris algebra (ELTE Eötvös Kiadó, 1998)
Szörényi Miklós: Szemléletes lineáris algebra - összefoglaló I. informatikusoknak Sablon:Pdf (SZE MTK jegyzet, 2005)
A kétdimenziós és háromdimenziós eset számítógépes animációval
MIT Linear Algebra Lecture on Gram-Schmidt Sablon:En
K. Kirchgessner, M. Schreck: Vektoranalysis für Dummies. Das Pocketbuch Paperback . Wiley-VCH, 2012. Sablon:ISBN

Fordítás

Sablon:Fordítás

Sablon:Portál

↑ A módszer leírása például itt: Szörényi: Szemléletes lineáris algebra - összefoglaló I. informatikusoknak Sablon:Pdf 8. o.
↑ Earliest known uses of some of the words of mathematics: G. A bejegyzésben hivatkoznak Gram és Schmidt eredeti cikkére és a Laplace könyvre.
↑ Orthogonalization process in Encyclopaedia of Mathematics
↑ Szörényi: Szemléletes lineáris algebra - összefoglaló I. informatikusoknak Sablon:Pdf 30. o.
↑ Lásd például: Freud Róbert: Lineáris algebra (ELTE Eötvös Kiadó, 1998) 202. o.
↑ Az 1×3-as A mátrix Ker A magtere a következőképpen van definiálva: Ker A := { v ∈ R³ | Av = 0 }. Belátható, hogy Ker A lineáris altér R³-ban.
Az A mátrix Im A képtere a következőképpen van definiálva: Im A := { w ∈ R | ∃ v ∈ R³: Av = w }.
↑ Az A mátrix most egyetlen sorvektor, ami merőleges az A magterének vektoraira, vagyis normálvektor.

[1] A módszer leírása például itt: Szörényi: Szemléletes lineáris algebra - összefoglaló I. informatikusoknak Sablon:Pdf 8. o.

[2] Earliest known uses of some of the words of mathematics: G. A bejegyzésben hivatkoznak Gram és Schmidt eredeti cikkére és a Laplace könyvre.

[3] Orthogonalization process in Encyclopaedia of Mathematics

[4] Szörényi: Szemléletes lineáris algebra - összefoglaló I. informatikusoknak Sablon:Pdf 30. o.

[5] Lásd például: Freud Róbert: Lineáris algebra (ELTE Eötvös Kiadó, 1998) 202. o.

[6] Az 1×3-as A mátrix Ker A magtere a következőképpen van definiálva: Ker A := { v ∈ R³ | Av = 0 }. Belátható, hogy Ker A lineáris altér R³-ban.
Az A mátrix Im A képtere a következőképpen van definiálva: Im A := { w ∈ R | ∃ v ∈ R³: Av = w }.

[7] Az A mátrix most egyetlen sorvektor, ami merőleges az A magterének vektoraira, vagyis normálvektor.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Gram–Schmidt-eljárás

Tartalomjegyzék

A Gram–Schmidt-eljárás

Az egydimenziós altérre vetítés

Az eljárás

Helyesség

Megjegyzések

Példa

Ortonormalizáció

Példa

Jegyzetek

Források

Fordítás

Navigációs menü

Gram–Schmidt-eljárás

A Gram–Schmidt-eljárás

Az egydimenziós altérre vetítés

Az eljárás

Helyesség

Megjegyzések

Példa

Ortonormalizáció

Példa

Jegyzetek

Források

Fordítás

Navigációs menü

Keresés