关于Kaczmarz的一类加速免伪逆贪婪块方法

doi:10.12677/AAM.2024.131046

期刊菜单

关于Kaczmarz的一类加速免伪逆贪婪块方法
Accelerated Pseudo-Inverse-Free Greedy Block Methods in the Kaczmarz Algorithm Category

DOI: 10.12677/AAM.2024.131046, PDF, HTML, XML, 下载: 54 浏览: 105
作者: 颜鑫鹏, 时文雅, 郇战^*：常州大学阿里云大数据学院，江苏常州
关键词: 贪婪块Kaczmarz方法；收敛性；大规模相容线性方程组；矩阵Sketching技术；免伪逆计算；Greedy Block Kaczmarz Method； Convergence； Large-Scale Compatible Linear Equation Systems； Matrix Sketching Techniques； Pseudo-Inverse Calculation

摘要: 块贪婪Kaczmarz方法在解决大规模一致线性系统方面取得了成功应用。然而在每次迭代步骤中，GBK方法都涉及伪逆计算，这不仅复杂化了计算并减慢了收敛速度，且不适合分布式实现。在本文中基于Sketching技术提出了两种免伪逆计算的GBK方法，分别是杠杆得分抽样免伪逆GBK方法和稀疏随机投影免伪逆GBK方法，其算法效率更加高效，收敛速度可以达到指数收敛。为了进一步加快收敛速度，我们还提出了CountSketch免伪逆重力球GBK方法、杠杆得分抽样免伪逆重力球GBK方法和稀疏随机投影免伪逆重力球GBK方法。为了验证新方法的有效性，我们进行了一些数值示例。结果表明，这些新方法在解决大规模一致线性系统方面具有很高的效率和准确性。

Abstract: The Greedy Block Kaczmarz (GBK) method has been successfully applied in solving large-scale con-sistent linear systems. However, each iteration of the GBK method involves the computation of pseudoinverses, which complicates the process, slows down convergence, and is ill-suited for dis-tributed implementations. In this paper, we introduce two free pseudoinverse GBK methods based on Sketching techniques: the Leverage Score Sampling Free Pseudoinverse GBK method and the Sparse Random Projection Free Pseudoinverse GBK method. These algorithms exhibit higher effi-ciency and can achieve exponential rates of convergence. To further accelerate convergence, we also propose the Count Sketch Free Pseudoinverse Heavy Ball GBK method, the Leverage Score Sampling Free Pseudoinverse Heavy Ball GBK method, and the Sparse Random Projection Free Pseudoinverse Heavy Ball GBK method. The effectiveness of these new methods is demonstrated through several numerical examples, showing that they are highly efficient and accurate in addressing large-scale consistent linear systems.

文章引用：颜鑫鹏, 时文雅, 郇战. 关于Kaczmarz的一类加速免伪逆贪婪块方法[J]. 应用数学进展, 2024, 13(1): 466-484. https://doi.org/10.12677/AAM.2024.131046

1. 引言

大规模相容线性方程组的高效求解对科学与工程应用 [1] [2] [3] [4] [5] 具有重要意义和实际价值。

$A x = b, A \in ℝ^{m \times n}, b \in ℝ^{m}$ (1)

经典Kaczmarz算法 [6] 以其结构简明和易于实施的特点，在大规模线性方程组求解中显现优势。该算法每次迭代仅处理单个行样本，保证了简洁高效，尽管其收敛性难以与其他迭代方法 [7] [8] 进行比较且可能较慢。研究人员正致力于优化Kaczmarz算法，以提升其在实际应用中的表现，确保在科学和工程领域的高效解决方案。

Strohmer和Vershynin [9] 近期提出的随机Kaczmarz (RK)方法，以其依赖于矩阵规范化条件数的快速收敛性而备受关注。该方法采用概率策略选取矩阵行指标，即根据公式

$P r = \frac{{‖ A_{(i_{k})} ‖}_{2}^{2}}{{‖ A ‖}_{F}^{2}}$

来选择行指标，能在特定条件下超越传统共轭梯度法。研究者对Kaczmarz方法持续优化，扩展至包括不相容、欠定和秩亏线性方程组 [10] [11] [12] 的收敛性分析，并引入Nesterov加速框架 [13] [14] 和贪婪策略 [15] [16] [17] [18] 等加速技巧。这些进展对解决线性方程组和优化问题领域产生了深远影响。

块Kaczmarz (BK)方法 [19] 及其变体如随机块Kaczmarz (RBK) [20] 、随机双块Kaczmarz (RDBK) [21] 和贪婪块Kaczmarz (GBK) [22] ，针对线性方程组求解展现出高效迭代性能。这些算法通过分块策略，有效利用方程信息，实现快速收敛。特别是在处理不相容系统和大规模数据时，这些方法通过随机选择和贪婪选择块，优化了迭代过程，提升了稳定性和收敛性。块高斯Kaczmarz方法(BGK) [23] 融合高斯Sketching技术，优化分布式计算性能，实现大型线性系统的有效分解与并行解算。然而，算法中伪逆计算和最小二乘问题求解的高计算量是挑战所在，优化这些关键步骤是当前研究的焦点。

Necoara提出的随机平均块Kaczmarz (RABK)方法 [24] ，Moorman等 [25] 研究了RABK方法在解不相容线性方程组中的收敛性理论，其衍生的简单随机扩展平均块Kaczmarz (REABK)方法 [26] ，该方法结合了随机扩展Kaczmarz (REK)方法 [27] 和RABK方法。Du和Sun扩展了该方法，并提出了一种免于使用伪逆的随机块迭代算法 [28] ，适用于解决一致与不一致线性方程组。最近，Zhang Jianhua等人在REABK的基础上推出了快速免伪逆贪婪块Kaczmarz (CFGBK)方法 [29] ，在处理相容与不相容线性方程组方面展现出高效性，但是随着研究发现该方法由于每步迭代 ${‖ A_{(i)} ‖}_{2}^{2}$ 存在出现为零的情况导致收敛失败，本文提出了一种新型加速免伪逆贪婪对该问题进行了研究并解决。

矩阵Sketching技术作为提升矩阵运算速度的关键工具，在偏微分方程反问题 [30] 、优化 [31] 与回归分析 [32] [33] [34] [35] 等多个领域发挥着至关重要的作用。本研究创新性地提出了两种基于近似最大距离准则的免伪逆贪婪块Kaczmarz方法(LFGBK、CFGBK)，通过精心选择采样矩阵和迭代策略，显著缩短了运算时间，同时保持了精度，并深入分析了其收敛性。此外，借助重力球技术，进一步提出了三种加速方法(CMFGBK、LMFGBK、CMFGBK)，并建立了完备的收敛性理论框架。经过数值实验验证，这些方法不仅提高了计算效率，也为矩阵Sketching技术的进一步优化奠定了坚实基础。

本文结构如下：第二节介绍预备知识和贪婪块Kaczmarz方法和免伪逆贪婪块Kaczmarz方法。第三节提出改进免伪逆贪婪块Kaczmarz方法并给分析。第四节给出数值实验。第五节总结全文。

2. 预备知识

在本文中，我们采用文献中 [17] 同样的记号。例如 $A_{(i)}$ 、 $A^{T}$ 、 $A^{†}$ 、 $‖ A ‖$ 、 ${‖ A ‖}_{F}$ 、 $[n]$ 分别表示系数矩阵A的第i行、转置、广义逆、谱范数、F-范数和集合 ${1, 2, \dots, n}$ 。

我们首先考虑贪婪选择规则，然后使用贪婪策略提供一个贪婪块Kaczmarz算法。在研究贪婪选择规则在kaczmarz型算法中的应用的文献中，很少有结果。Nutini等人在 [16] 中提出了Kaczmarz算法的最大残差(MR)和最大距离(MD)规则。然而，在许多应用程序中，由于其复杂的表达式，计算精确的MR或MD规则将过于低效，但我们可以通过使用更便宜的近似贪婪规则来近似它，如 [18] 方法。在本节中，我们将考虑计算贪婪规则直至乘法误差的方法。

再给出收敛性分析之前首先介绍引理。

引理1 [36] 让 ${F_{t}}_{t \geq 0}$ 是一个非负实数矩阵，其中 $F_{0} = F_{1}$ 满足关系式 $F_{t + 1} \leq a_{1} F_{t} + a_{2} F_{t - 1}$ 对所有 $t \geq 1$ 成立，这里 $a_{2} > 0$ 且 $a_{1} + a_{2} < 1$ 。对所有 $t \geq 1$ 下列不等式成立：

$F_{t + 1} \leq q^{t} (1 + δ) F_{0}$

其中， $q = \frac{a_{1} + \sqrt{a_{1}^{2} + 4 a_{1}}}{2}, δ = q - a_{1}$ 和 $q \leq a_{1} + a_{2}$ 。

引理2 [17] 如果任意向量 $u \in r a n g e (A^{T})$ ，则

${‖ A u ‖}_{2}^{2} \geq λ_{m i n} (A^{T} A) {‖ u ‖}_{2}^{2}$

引理3 [35] [37] 如果S是含有 $O (n^{2} / δ θ^{2})$ 行稀疏随机变换，其中那么不等式

$(1 - θ) {‖ A x ‖}_{2} \leq {‖ S A x ‖}_{2} \leq (1 + θ) {‖ A x ‖}_{2}, x \in ℝ^{n}$

和

$(1 - θ) σ_{i} (S A) \leq σ_{i} (A) \leq (1 + θ) σ_{i} (S A), 1 \leq i \leq d, 0 < δ, θ < 1,$

成立的概率均为 $1 - δ$ 。

定义1 [35] (CountSketch变换)：设 $h : [m] \to [d]$ 是一个随机映射，使得每个 $i \in [m]$ ， $h (i) = j$ 对每个 $j \in [d]$ 成立的概率为1/d， $Φ \in {0, 1}^{d \times m}$ 是一个 $d \times m$ 二值矩阵，其中其余元素均为0。D是 $m \times m$ 。随机对角矩阵，每个对角元素以相同的概率独立选择值为1或者−1。则CountSketch变换定义为 $S = Φ D \in ℝ^{d \times m}$ 。

定义1描述了CountSketch变换的基本过程：首先，通过随机映射h和二值矩阵 $Φ$ 将输入矩阵的行映射到较低的维度空间；然后，通过随机对角矩阵D对映射后的结果进行随机翻转。这个过程可以有效地减小矩阵的大小，同时保持某些重要的信息。

Algorithm 1. 基于流形式的CountSketch方法

定义2 [38] [39] (Leverage Score Sampling变换)：给定矩阵 $A \in ℝ^{m \times n}$ ，其奇异值分解为 $A = U D V^{T}$ ，其行杠杆得分给出U行的欧几里得范数得平方，即对于每个 $j \in [d]$ ， $U l_{j} = {‖ e_{j}^{T} U ‖}_{2}^{2} = {‖ u_{j} ‖}_{2}^{2}$ ，同时满足 $0 \leq l_{j} \leq 1$ 和 $\sum_{i = j}^{n} l_{j} = p$ 。杠杆得分抽样也可以描述为“帽矩阵”。

定义2描述了Leverage Score Sampling变换的基本过程，首先设A是一个 $n \times d$ 的矩阵，每一行的Leverage Score是该行在A的奇异值分解中对应的右奇异向量的范数的平方。这个得分衡量了每一行在数据集中的重要性或影响力。这种采样方法的优点是，它可以从大数据集中选择出一小部分具有代表性的样本，从而进行更高效的计算。所得到的样本集 $S \in R^{k \times d}$ ，其中k是选定的样本数量，可以用于估计原矩阵CA的各种性质，例如奇异值分解、主成分分析等。

Algorithm 2. 基于流形式的Leverage Score Sampling方法

定义3 [40] (Sparse Random Projection变换)：设矩阵 $A \in ℝ^{m \times n}$ ，其中 $A_{i j} ~ N (0, 1)$ ，则 $P (A_{i j} \neq 0) = 1 / \sqrt{m}$ 。

定义3描述了Sparse Random Projection变换的基本过程，首先Sparse Random Projection投影后的维度k，然后构造一个 $d \times k$ 的稀疏矩阵R。对于R中的每一列，我们随机选择一个元素并赋值为+1或−1，其余元素设为0。这个稀疏随机矩阵的每一列都只有一个非零元素，该元素的位置在每一列中都是随机选择的，其值是根据一个预先定义的分布随机选择的。这种方法的优点是它的计算效率高，因为乘以稀疏矩阵的计算复杂度低。这种方法在处理高维数据时，特别是在近似最近邻搜索和其他需要降维的应用中，被广泛使用。此外，由于R的元素大部分是0，所以投影后的数据也会保持原始数据的稀疏性。

Algorithm 3. 基于流形式的Sparse Random Projection方法

定义4 [36] (Heavy Ball Momentum优化)：重球动量是一种广泛添加到梯度下降方法中的增强方法，它在每个迭代步骤中不仅采取梯度下降的步骤，还额外在前一迭代步骤的移动方向上采取一步。这一方法最初由Polyak在1964年提出，后来在机器学习领域广泛应用。

Algorithm 4. Heavy Ball Momentum优化方法

假设我们已经近似了MD规则，其中有一个参数 $η \in (0, 1]$ ，用于选择指标 $i_{k}$

$\frac{{| b_{i_{k}} - A_{(i_{k})} x_{k} |}^{2}}{{‖ A_{(i_{k})} ‖}_{2}^{2}} \geq η \max_{1 \leq i \leq m} {\frac{{| b_{i} - A_{(i)} x_{k} |}^{2}}{{‖ A_{(i)} ‖}_{2}^{2}}}$

Niu和Zheng将贪婪策略与块Kaczmarz方法相结合，提出了求解大型相容线性方程组的贪婪块Kaczmarz (GBK) [22] 方法，具体过程见算法5。

Algorithm 5. GBK方法

GBK方法的收敛性分析描述如下：

定理1 [22] 设线性方程组(1)相容，则由算法7生成的迭代序列收敛到方程组的最小范数解 $x_{*} = A^{†} b$ ，且对任意 $k \geq 0$ 满足

$x_{k + 1} - x_{*}_{2}^{2} \leq {(1 - γ_{k} (η) \frac{σ_{m i n}^{2} (A)}{{‖ A ‖}_{F}^{2}})}^{k + 1} {‖ x_{0} - x_{*} ‖}_{2}^{2}$

其中 $γ_{k} (η) = η \frac{{‖ A ‖}_{F}^{2}}{{‖ A ‖}_{F}^{2} - {‖ A_{T_{k - 1}} ‖}_{F}^{2}} \frac{{‖ A_{T_{k}} ‖}_{F}^{2}}{σ_{m a x}^{2} (A_{T_{k}})}$ (记 $γ_{0 (η)} \equiv η \frac{{‖ A_{T_{0}} ‖}_{F}^{2}}{σ_{m a x}^{2} (A_{T_{0}})}$ )， $η \in (0, 1]$ ， $σ_{m i n} (A)$ 和 $σ_{m a x} (A)$ 分别表示矩阵A的非零最小奇异值和最大奇异值。

3. 改进免伪逆贪婪块Kaczmarz方法及其收敛性分析

由于CFGBK方法每步迭代 ${‖ A_{(i)} ‖}_{2}^{2}$ 存在出现为零的情况，本节提出了改进免伪逆贪婪块Kaczmarz方法。首先每步采用近似最大举例准则

$\frac{{| b_{i_{k}} - A_{(i_{k})} x_{k} |}^{2}}{{‖ A_{(i_{k})} ‖}_{2}^{2}} \geq η \max_{1 \leq i \leq m} {\frac{{| b_{i} - A_{(i)} x_{k} |}^{2}}{{‖ A_{(i)} ‖}_{2}^{2}}},$

选择块矩阵 $A_{T_{k}}$ ，的指标集 $T_{k}$ ；其次，将当前估计值投影到构成块矩阵 $A_{T_{k}}$ 的每一行上；最后，对得到的投影求平均值来计算下一次迭代，即

$x_{k + 1} = x_{k} + α_{k} (\sum_{i \in T_{k}} w_{i} \frac{b_{i} - A_{(i)} x_{k}}{{‖ A_{(i)} ‖}_{2}^{2}} A_{(i)}^{T})$

Algorithm 6. LFGBK方法

Leverage Score Sampling可以从大数据集中选择出一小部分具有代表性的样本，从而进行更高效的计算与CFGBK相比，采样比Count Sketch采样更高效，第四节中的数值实验将证实LFGBK方法比CFGBK更高效。

本文只讨论 $α_{k} = 1$ 的情况，下面给出LFGBK方法求解大型相容线性方程组(1)的收敛性理论。

定理2 设Leverage Score变换S满足 $d = O (n^{2} / δ θ^{2})$ ， $x_{*} = A^{†} b$ 是相容线性方程组(1)的最小范数解，对任意 $k \geq 0$ 满足

${‖ x_{k + 1} - x_{*} ‖}_{2}^{2} \leq (1 - {\tilde{ψ}}_{k} (η) \frac{σ_{m i n}^{2} (\tilde{A})}{{‖ \tilde{A} ‖}_{F}^{2}}) {‖ x_{k} - x_{*} ‖}_{2}^{2}$ (2)

其中 ${\tilde{ψ}}_{k} (η) = η t (\frac{2}{t} - \frac{1}{t^{2}} σ_{m a x}^{2} ({\hat{A}}_{T_{k}}^{T}))$ ， $η \in (0, 1]$ ，且 $r a n g e (A), σ_{m i n} (A)$ 和 $σ_{m a x} (A)$ 分别表示矩阵A的值域，非零最小奇异值和最大奇异值。

证明由算法6和 ${\tilde{r}}_{k} = \tilde{b} - \tilde{A} x_{k}$ ，我们可以得到

$x_{k + 1} = x_{k} + (\sum_{i \in T_{k}} \frac{1}{| T_{k} |} \frac{{\tilde{r}}_{k}^{i} {\tilde{A}}_{(i)}^{T}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}})$ (3)

设 $| T_{k} | = t$ 和 $T_{k} = {j_{k_{1}}, \dots, j_{k_{t}}}$ ，将(3)式子展开可得

$x_{k + 1} = x_{k} + \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)}^{T} e_{i}^{T} {\tilde{r}}_{k}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} = x_{k} + \frac{1}{t} (\frac{{\tilde{A}}_{(j_{k_{1}})}^{T} e_{j_{k_{1}}}^{T} {\tilde{r}}_{k}}{{‖ {\tilde{A}}_{(j_{k_{1}})} ‖}_{2}^{2}} + \dots + \frac{{\tilde{A}}_{(j_{k_{t}})}^{T} e_{j_{k_{t}}}^{T} {\tilde{r}}_{k}}{{‖ {\tilde{A}}_{(j_{k_{t}})} ‖}_{2}^{2}}) = x_{k} + \frac{1}{t} {\hat{A}}_{T_{k}}^{T} {\hat{I}}_{T_{k}} \tilde{r}$ (4)

其中

${\hat{A}}_{T_{k}}^{T} = [\frac{{\tilde{A}}_{(j_{k_{1}})}^{T}}{{‖ {\tilde{A}}_{(j_{k_{1}})} ‖}_{2}}, \frac{{\tilde{A}}_{(j_{k_{2}})}^{T}}{{‖ {\tilde{A}}_{(j_{k_{2}})} ‖}_{2}}, \dots, \frac{{\tilde{A}}_{(j_{k_{t}})}^{T}}{{‖ {\tilde{A}}_{(j_{k_{t}})} ‖}_{2}}] \in ℝ^{n \times t}$ (5)

和

${\hat{I}}_{T_{k}} = {[\frac{e_{(j_{k_{1}})}}{{‖ {\tilde{A}}_{(j_{k_{1}})} ‖}_{2}}, \frac{e_{(j_{k_{2}})}}{{‖ {\tilde{A}}_{(j_{k_{2}})} ‖}_{2}}, \dots, \frac{e_{(j_{k_{t}})}}{{‖ {\tilde{A}}_{(j_{k_{t}})} ‖}_{2}}]}^{T} \in ℝ^{t \times d}$ (6)

(4)式同时减去 $x_{*}$ ，可得

$x_{k + 1} - x_{*} = x_{k} - x_{*} - \frac{1}{t} {\hat{A}}_{T_{k}}^{T} {\hat{I}}_{T_{k}} \tilde{A} (x_{k} - x_{*}) = (I - \frac{1}{t} {\hat{A}}_{T_{k}}^{T} {\hat{A}}_{T_{k}}) (x_{k} - x_{*})$ (7)

对(7)式两边同时取谱范数并平方，又对任意半正定矩阵 $Q ≽ 0$ 满足 $Q^{2} ≼ λ_{\max} (Q) Q$ ，从而可以得到

${‖ x_{k + 1} - x_{*} ‖}_{2}^{2} = ‖ (x_{k} - x_{*}) - \frac{1}{t} {\hat{A}}_{T_{k}}^{T} {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖ \leq {‖ x_{k} - x_{*} ‖}_{2}^{2} - (\frac{2}{t} - \frac{1}{t^{2}} σ_{m a x}^{2} ({\hat{A}}_{T_{k}}^{T})) {‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2}$ (8)

由(5)式和 ${| {\tilde{b}}_{j_{k}} - {\tilde{A}}_{(j_{k})} x_{k} |}^{2} \geq {\tilde{ε}}_{k} {‖ {\tilde{A}}_{(j_{k})} ‖}_{2}^{2}$ 通过简单计算可得

${‖ {\tilde{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} = \sum_{j_{k} \in T_{k}} \frac{1}{{‖ {\tilde{A}}_{(j_{k})} ‖}_{2}^{2}} {| {\tilde{r}}_{k}^{j_{k}} |}^{2} \geq \sum_{j_{k} \in T_{k}} \frac{1}{{‖ {\tilde{A}}_{(j_{k})} ‖}_{2}^{2}} {\tilde{ε}}_{k} {‖ {\tilde{A}}_{(j_{k})} ‖}^{2}$ (9)

把 ${\tilde{ε}}_{k} = η \max_{1 \leq i \leq d} {\frac{{| {\tilde{b}}_{i} - {\tilde{A}}_{(i) x_{k}} |}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}}$ 带入上式，可得

${‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} \geq \sum_{j_{k} \in T_{k}} η \max_{1 \leq i \leq d} {\frac{{| {\tilde{r}}_{k}^{i} |}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}} \geq η t \sum_{i = 1}^{d} \frac{{| {\tilde{r}}_{k}^{i} |}^{2}}{{‖ A_{(i)} ‖}_{2}^{2}} \frac{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}{{‖ A ‖}_{F}^{2}} = η t \frac{{‖ {\tilde{r}}_{k} ‖}^{2}}{{‖ \tilde{A} ‖}_{F}^{2}}$ (10)

由 $x_{0} \in r a n g e (A^{T})$ 和 $x_{*} = A^{†} b$ ，故 $x_{k} - x_{*} \in r a n g e (A^{T})$ ，从而由引理2可得

${‖ {\tilde{r}}_{k} ‖}^{2} = {‖ \tilde{A} (x_{k} - x_{*}) ‖}_{2}^{2} \geq σ_{m i n}^{2} (\tilde{A}) {‖ x_{k} - x_{*} ‖}_{2}^{2}$

结合上式，可得

${‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} \geq η t \frac{σ_{m i n}^{2} ({\tilde{A}}^{T} \tilde{A})}{{‖ \tilde{A} ‖}_{F}^{2}} {‖ x_{k} - x_{*} ‖}_{2}^{2}$ (11)

因此，联合(11)式和(8)式，我们可得(2)式，故定理2得证。

Algorithm 7. SFGBK方法

Sparse Random Projection这个稀疏随机矩阵的每一列都只有一个非零元素，该元素的位置在每一列中都是随机选择的，其值是根据一个预先定义的分布随机选择的。这种方法的优点是它的计算效率高，因为乘以稀疏矩阵的计算复杂度低。从而进行更高效的计算作为参照，第四节中的数值实验将给出SFGBK的数据。

本文只讨论 $α_{k} = 1$ 的情况，下面给出LFGBK方法求解大型相容线性方程组(1)的收敛性理论。

定理3 设Sparse Random Projection变换S满足 $d = O (n^{2} / δ θ^{2})$ ， $x_{*} = A^{†} b$ 是相容线性方程组(1)的最小范数解，则对任意 $k \geq 0$ ，由SFGBK方法生成的迭代序列 ${x_{k}}_{k = 0}^{\infty}$ 满足

$x_{k + 1} - x_{*}_{2}^{2} \leq (1 - {\tilde{ψ}}_{k} (η) \frac{σ_{m i n}^{2} (A)}{{‖ A ‖}_{2}^{2}}) {‖ x_{k} - x_{*} ‖}_{2}^{2}$ (12)

的概率为 $1 - δ$ 其中 ${\tilde{ψ}}_{k} (η) = \frac{η}{| T_{k} |} (2 | T_{k} | - σ_{m a x}^{2} ({\hat{A}}_{T_{k}}^{T})) \frac{{(1 - θ)}^{4}}{\min {d, n}}$ ， $η \in (0, 1]$ ，且 $σ_{m i n} (A)$ 和 $σ_{m a x} (A)$ 分别表示矩阵A的非零最小奇异值和最大奇异值。

证明由算法7和 ${\tilde{r}}_{k} = \tilde{b} - \tilde{A} x_{k}$ ，我们可以得到

$x_{k + 1} = x_{k} + (\sum_{i \in T_{k}} \frac{1}{| T_{k} |} \frac{{\tilde{r}}_{k}^{i} {\tilde{A}}_{(i)}^{T}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}})$ (13)

设 $| T_{k} | = t$ 和 $T_{k} = {j_{k_{1}}, \dots, j_{k_{t}}}$ ，将(13)式子展开可得

其中

和

(14)式同时减去 $x_{*}$ ，可得

$x_{k + 1} - x_{*} = x_{k} - x_{*} - \frac{1}{t} {\hat{A}}_{T_{k}}^{T} {\hat{I}}_{T_{k}} \tilde{A} (x_{k} - x_{*}) \begin{matrix} = (I - \frac{1}{t} {\hat{A}}_{T_{k}}^{T} {\hat{A}}_{T_{k}}) (x_{k} - x_{*}) \end{matrix}$ (17)

对(17)式两边同时取谱范数并平方，又对任意半正定矩阵 $Q ≽ 0$ 满足 $Q^{2} ≼ λ_{m a x} (Q) Q$ ，从而可以得

$x_{k + 1} - x_{*}_{2}^{2} \leq {‖ x_{k} - x_{*} ‖}_{2}^{2} - (\frac{2}{t} - \frac{1}{t^{2}} σ_{m a x}^{2} ({\hat{A}}_{T_{k}}^{T})) {‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2}$ (18)

由(15)式和 ${| {\tilde{b}}_{j_{k}} - {\tilde{A}}_{(j_{k})} x_{k} |}^{2} \geq {‖ {\tilde{ε}}_{k} {\tilde{A}}_{(j_{k})} ‖}_{2}^{2}$ ，通过简单计算可得

${‖ {\tilde{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} = \sum_{j_{k} \in T_{k}} \frac{1}{{‖ {\tilde{A}}_{(j_{k})} ‖}_{2}^{2}} {| {\tilde{r}}_{k}^{j_{k}} |}^{2} \begin{matrix} \geq \sum_{j_{k} \in T_{k}} \frac{1}{{‖ {\tilde{A}}_{(j_{k})} ‖}_{2}^{2}} {\tilde{ε}}_{k} {‖ {\tilde{A}}_{(j_{k})} ‖}_{2}^{2} \end{matrix}$ (19)

把 ${\tilde{ε}}_{k} = η \max_{1 \leq i \leq d} {\frac{{| {\tilde{b}}_{i} - {\tilde{A}}_{(i) x_{k}} |}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}}$ 带入(19)式，可得

${‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} \geq \sum_{j_{k} \in T_{k}} η \max_{1 \leq i \leq d} {\frac{{| {\tilde{r}}_{k}^{i} |}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}} \geq t η \sum_{i = 1}^{d} \frac{{| {\tilde{r}}_{k}^{i} |}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}{{‖ \tilde{A} ‖}_{F}^{2}} \begin{matrix} = η t \frac{{‖ {\tilde{r}}_{k} ‖}^{2}}{{‖ \tilde{A} ‖}_{F}^{2}} \end{matrix}$ (20)

由 $x_{0} \in r a n g e (A^{T})$ 和 $x_{*} = A^{†} b$ ，故 $x_{k} - x_{*} \in r a n g e (A^{T})$ ，从而由引理3可得

${‖ {\tilde{r}}_{k} ‖}^{2} = {‖ \tilde{A} (x_{k} - x_{*}) ‖}_{2}^{2} \geq {(1 - θ)}^{2} {‖ A (x_{k} - x_{*}) ‖}_{2}^{2} \geq {(1 - θ)}^{2} σ_{m i n}^{2} (A) {‖ x_{k} - x_{*} ‖}_{2}^{2}$ (21)

成立的概率为 $1 - δ$ ，结合上式，可得

${‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} \geq η t \frac{{(1 - θ)}^{2} σ_{m i n}^{2} ({\tilde{A}}^{T} \tilde{A})}{{‖ \tilde{A} ‖}_{F}^{2}} {‖ x_{k} - x_{*} ‖}_{2}^{2}$ (22)

成立的概率为 $1 - δ$ ，又 ${‖ \tilde{A} ‖}_{F}^{2} \leq \min {d, n} {‖ \tilde{A} ‖}_{2}^{2}$ ，则由引理3可得 ${‖ \tilde{A} ‖}_{F}^{2} \leq \min {d, n} {‖ \tilde{A} ‖}_{2}^{2} \leq \min {d, n} \frac{{‖ A ‖}_{2}^{2}}{{(1 - θ)}^{2}}$ 成立的概率为 $1 - δ$ 。故

${‖ {\hat{A}}_{T_{k}} (x_{k} - x_{*}) ‖}_{2}^{2} \geq η t \frac{{(1 - θ)}^{4} σ_{m i n}^{2} (A)}{\min {d, n} {‖ A ‖}_{2}^{2}} {‖ x_{k} - x_{*} ‖}_{2}^{2}$ (23)

成立的概率至少为 $1 - δ$ 。

因此我们可得(12)式成立的概率为 $1 - δ$ 。故定理3得证。

Algorithm 8. CMFGBK方法

定理4 设CountSketch变换S满足 $d = O (n^{2} / δ θ^{2})$ ， $x_{*} = A^{†} b$ 是相容线性方程组(1)的最小范数解，则对任意 $x_{0} \in r a n g e (A^{T})$ 由算法8生成迭代序列 ${x_{k}}_{k = 0}^{\infty}$ 收敛到方程组最小范数解 $x_{*}$ 且对任意 $k \geq 0$ 满足

${‖ x_{k} - x^{*} ‖}_{2}^{2} \leq q^{t} (1 + δ) {‖ x_{0} - x^{*} ‖}_{2}^{2}$

的概率为 $1 - δ$ ，其中 $4 α^{2} + 4 α + (\frac{1}{t^{2}} - \frac{2}{t} - α + α \frac{1}{t}) \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}} < 0, α > 0$ ， $a_{1} = 1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}$ ， $a_{2} = 2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}$ ， $q = \frac{a_{1} + \sqrt{a_{1}^{2} + 4 a_{1}}}{2}$ ， $δ = q - a_{1}$ 和 $a_{1} + a_{2} \leq q < 1$ ，有 $q \in (0, 1)$ 。

证明由算法8，我们可以得到

$x_{k + 1} = x_{k} + \sum_{i \in T_{k}} \frac{1}{| T_{k} |} \frac{{\tilde{b}}_{i} - {\tilde{A}}_{(i)} x_{k}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} + α (x_{k} - x_{k - 1})$

设 $| T_{k} | = t$ 和 $T_{k} = {j_{k_{1}}, \dots, j_{k_{t}}}$ ，其中t表示指标集 $T_{k}$ 中元素的个数，可得

$x_{k + 1} = x_{k} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} + α (x_{k} - x_{k - 1})$

上式同时减去 $x_{*}$ ，可得

$x_{k + 1} - x^{*} = x_{k} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} + α (x_{k} - x_{k - 1}) - x^{*}$

对上式两边同时取谱范数并平方，可得

${‖ x_{k + 1} - x_{*} ‖}_{2}^{2} = {‖ x_{k} - x^{*} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} ‖}_{2}^{2} + α^{2} {‖ x_{k} - x_{k - 1} ‖}_{2}^{2} + 2 α 〈 x_{k} - x^{*} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T}, x_{k} - x_{k - 1} 〉$ (24)

由Kaczmarz收敛论证和 $b_{i} = A_{(i)} x^{*}$ ，对等式(24)的第一个项给出下界，可得

${‖ x_{k} - x^{*} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} ‖}_{2}^{2} = {‖ x_{k} - x_{*} ‖}_{2}^{2} + (\frac{1}{t^{2}} - \frac{2}{t}) \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}$

由首项加上并减去 $x^{*}$ 和 ${‖ a + b ‖}^{2} \leq 2 {‖ a ‖}^{2} + 2 {‖ b ‖}^{2}$ ，对等式(24)的第二个项给出下界，可得

$α^{2} {‖ x_{k} - x_{k - 1} ‖}_{2}^{2} = α^{2} {‖ (x_{k} - x^{*}) + (x^{*} - x_{k - 1}) ‖}_{2}^{2} \leq 2 α^{2} {‖ x_{k} - x^{*} ‖}_{2}^{2} + 2 α^{2} {‖ x_{k - 1} - x^{*} ‖}_{2}^{2}$

等式(24)的第三个项给出下界，可得

$\begin{array}{l} 2 α 〈 x_{k} - x^{*} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T}, x_{k} - x_{k - 1} 〉 \\ \leq {‖ α x_{k} - x^{*} ‖}^{2} + α {‖ x_{k} - x_{k - 1} ‖}^{2} - α {‖ x_{k - 1} - x^{*} ‖}^{2} - α 〈 \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T}, x_{t} - x^{*} 〉 \\ + α 〈 \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k - 1} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} A_{(i)}^{T}, x_{k - 1} - x^{*} 〉 \end{array}$

结合三个下界，简化内积并归类相似项，可得：

${‖ x_{k + 1} - x_{*} ‖}_{2}^{2} \leq (1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}) {‖ x_{k} - x_{*} ‖}_{2}^{2} + (2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}) {‖ x_{k - 1} - x^{*} ‖}_{2}^{2}$

由引理3，可得

$\begin{array}{l} (1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}) {‖ x_{k} - x_{*} ‖}_{2}^{2} + (2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}) {‖ x_{k - 1} - x^{*} ‖}_{2}^{2} \\ \leq (1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}) {‖ x_{k} - x_{*} ‖}_{2}^{2} \\ + (2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}) {‖ x_{k - 1} - x^{*} ‖}_{2}^{2} \end{array}$

成立的概率为 $1 - δ$ ，结合上式可得

$\begin{matrix} {‖ x_{k + 1} - x_{*} ‖}_{2}^{2} \leq (1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}) {‖ x_{k} - x_{*} ‖}_{2}^{2} \\ + (2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}) {‖ x_{k - 1} - x^{*} ‖}_{2}^{2} \end{matrix}$

最后，由引理1，其中两个系数为 $a_{1} = 1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}$ 和 $a_{2} = 2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{A^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} \frac{1}{{(1 - θ)}^{2}}$ ，由于我们假设 $a_{1} + a_{2} < 1$ 和 $α > 0$ ，由 $a_{2} > 0$ ，可得

${‖ x_{k} - x^{*} ‖}_{2}^{2} \leq q^{t} (1 + δ) {‖ x_{0} - x^{*} ‖}_{2}^{2}$

其中， $q = \frac{a_{1} + \sqrt{a_{1}^{2} + 4 a_{1}}}{2}$ ， $δ = q - a_{1}$ 和 $a_{1} + a_{2} \leq q < 1$ ，有 $q \in (0, 1)$ ，可得我们证明了CMFGBK算法的收敛性。

Algorithm 9. LMFGBK方法

定理5 设Leverage Score变换S满足 $d = O (n^{2} / δ θ^{2})$ ， $x_{*} = A^{†} b$ 是相容线性方程组(1)的最小范数解和则对任意 $x_{0} \in r a n g e (A^{T})$ 由算法9生成迭代序列 ${x_{k}}_{k = 0}^{\infty}$ 收敛到方程组的最小范数解 $x_{*}$ 且对任意 $k \geq 0$ 满足

${‖ x_{k} - x^{*} ‖}_{2}^{2} \leq q^{t} (1 + δ) {‖ x_{0} - x^{*} ‖}_{2}^{2}$

其中， $4 α^{2} + 4 α + (\frac{1}{t^{2}} - \frac{2}{t} - α + α \frac{1}{t}) \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} < 0, α > 0$ ， $a_{1} = 1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}$ ， $a_{2} = 2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}$ ， $q = \frac{a_{1} + \sqrt{a_{1}^{2} + 4 a_{1}}}{2}$ ， $δ = q - a_{1}$ 和 $a_{1} + a_{2} \leq q < 1$ ，有 $q \in (0, 1)$ ，可得我们证明了LMFGBK算法的收敛性。

证明由算法9，我们可以得到

$x_{k + 1} = x_{k} + \sum_{i \in T_{k}} \frac{1}{| T_{k} |} \frac{{\tilde{b}}_{i} - {\tilde{A}}_{(i)} x_{k}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} + α (x_{k} - x_{k - 1})$

设 $| T_{k} | = t$ 和 $T_{k} = {j_{k_{1}}, \dots, j_{k_{t}}}$ ，其中t表示指标集 $T_{k}$ 中元素的个数，可得

$x_{k + 1} = x_{k} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T} + α (x_{k} - x_{k - 1})$

上式同时减去 $x_{*}$ ，可得

对上式两边同时取谱范数并平方，可得

由Kaczmarz收敛论证和 $b_{i} = A_{(i)} x^{*}$ ，对等式(25)的第一个项给出下界，可得

由首项加上并减去 $x^{*}$ 和 ${‖ a + b ‖}^{2} \leq 2 {‖ a ‖}^{2} + 2 {‖ b ‖}^{2}$ ，对等式(25)的第二个项给出下界，可得

等式(25)的第三个项给出下界，可得

$\begin{array}{l} 2 α 〈 x_{k} - x^{*} - \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T}, x_{k} - x_{k - 1} 〉 \\ = 2 α 〈 x_{k} - x^{*}, x_{k} - x_{k - 1} 〉 + 2 α 〈 \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T}, x_{k - 1} - x_{k} 〉 \\ \leq α {‖ x_{k} - x^{*} ‖}^{2} + α {‖ x_{k} - x_{k - 1} ‖}^{2} - α {‖ x_{k - 1} - x^{*} ‖}^{2} - α 〈 \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} {\tilde{A}}_{(i)}^{T}, x_{t} - x^{*} 〉 \\ + α 〈 \sum_{i \in T_{k}} \frac{1}{t} \frac{{\tilde{A}}_{(i)} x_{k - 1} - {\tilde{b}}_{i}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}} A_{(i)}^{T}, x_{k - 1} - x^{*} 〉 \end{array}$

结合三个下界，简化内积并归类相似项，可得：

最后，由引理1，其中两个系数为 $a_{1} = 1 + 2 α^{2} + 3 α + (\frac{1}{t^{2}} - \frac{2}{t} - α) \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}$ 和 $a_{2} = 2 α^{2} + α + α \frac{1}{t} \sum_{i \in T_{k}} \frac{{({\tilde{A}}_{(i)})}^{2}}{{‖ {\tilde{A}}_{(i)} ‖}_{2}^{2}}$ ，由于我们假设 $a_{1} + a_{2} < 1$ 和 $α > 0$ ，由 $a_{2} > 0$ ，可得

${‖ x_{k} - x^{*} ‖}_{2}^{2} \leq q^{t} (1 + δ) {‖ x_{0} - x^{*} ‖}_{2}^{2}$

其中， $q = \frac{a_{1} + \sqrt{a_{1}^{2} + 4 a_{1}}}{2}$ ， $δ = q - a_{1}$ 和 $a_{1} + a_{2} \leq q < 1$ ，有 $q \in (0, 1)$ ，可得我们证明了LMFGBK算法的收敛性。

定理6 设Sparse Random Projection变换S满足 $d = O (n^{2} / δ θ^{2})$ ， $x_{*} = A^{†} b$ 是相容线性方程组(1)的最小范数解，则对任意 $x_{0} \in r a n g e (A^{T})$ 由算法10生成迭代序列 ${x_{k}}_{k = 0}^{\infty}$ 收敛到方程组的最小范数解 $x_{*}$ 且对任意 $k \geq 0$ 满足

${‖ x_{k} - x^{*} ‖}_{2}^{2} \leq q^{t} (1 + δ) {‖ x_{0} - x^{*} ‖}_{2}^{2}$

定理4~6表明应用重力球技术的Kaczmarz算法(即本研究提出的算法CFMGBK、LFMGBK和SFMGBK)呈指数级收敛，其收敛速度超过传统的CFGBK算法。

Algorithm 10. SMFGBK方法

4. 数值实验

本节，我们通过几组数值算例来比较GBK方法、改进FGBK方法和CFGBK方法求 [17] 解大型相容线性方程组(1)的有效性。所有实验均通过MATLAB编程实现，IT和CPU分别表示迭代步数和计算时间(单位：秒)。类似于文献，IT和CPU的取值均为50次重复运行所需要的迭代步数和计算时间的平均值。在所有的计算过程中，我们令初始向量 $x_{0} = z e r o s (n, 1)$ 和右端项 $b = A x$ ，其中x为相容线性方程组的解向量并由MATLAB函数randn生成。置停机准则为 $R S E = \frac{{‖ x_{k} - x_{*} ‖}_{2}^{2}}{{‖ x_{*} ‖}_{2}^{2}} \leq 10^{- 6}$ ，在实际计算中条件 $O (n^{2} / δ θ^{2})$ 非常严格，在很多实际问题计算过程中Sketching因子 $d = n^{2}$ 可以取得很好的数值效果。我们考虑的系数矩阵 $A \in ℝ^{m \times n}$ 。类型a： $A = r a n d n (m, n)$ 。类型b: $A = U D V^{T}$ ，其中 $U \in ℝ^{m \times r}$ ， $V \in ℝ^{n \times r}$ 和 $r = n$ ，且 $U, V$ 和D分别由 $[U, ~] = q r (r a n d n (m, r), 0), [V, ~] = q r (r a n d n (n, r), 0)$ 和 $D = d i a g (1 + (k - 1) * r a n d (r, 1))$ 生成，易计算系数矩阵A的条件数的上界为k。

Table 1. Numerical experimental results of FGBK, CFGBK, LFGBK, and SFGBK when A = r a n d n ( m , n )

表1. $A = r a n d n (m, n)$ 时，FGBK、CFGBK、LFGBK和SFGBK的数值实验结果

Table 2. Numerical experimental results of FGBK, CFGBK, LFGBK, and SFGBK when A = U D V T , k = 1.5

表2. $A = U D V^{T}$ 时，FGBK、CFGBK、LFGBK和SFGBK的数值实验结果， $k = 1.5$

从表1和表2的数值结果，我们可得如下结论：1) FGBK方法、CFGBK方法、LFGBK方法和SFGBK方法都是有效的。2) FGBK方法的迭代步数比CFGBK方法、LFGBK方法和SFGBK方法的迭代步数少，但是在计算时间上，CFGBK方法、LFGBK方法和SFGBK方法更优于FGBK方法。3) 在问题类型a和问题类型b中，CFGBK方法在运行过程中出现了NA报错，在鲁棒性上，FGBK方法、LFGBK方法和SFGBK方法更优于CFGBK方法。4) $η = 0.9$ 时加速效果要优于 $η = 0.8$ 时的情形。

Table 3. Numerical experimental results for LFGBK, CFMGBK, LFMGBK, and SFMGBK when A = r a n d n ( m , n )

表3. $A = r a n d n (m, n)$ 时，LFGBK、CFMGBK、LFMGBK和SFMGBK的数值实验结果

Table 4. Numerical experimental results for LFGBK, CFMGBK, LFMGBK, and SFMGBK when A = U D V T , k = 1.5

表4. $A = U D V^{T}$ 时，LFGBK、CFMGBK、LFMGBK和SFMGBK的数值实验结果， $k = 1.5$

从表3和表4的数值结果，我们可得如下结论：1) CFMGBK方法、LFMGBK方法和SFMGBK方法求解大型相容线性方程组都是有效的。2) CFMGBK方法、LFMGBK方法和SFMGBK方法在迭代步数和计算时间上，CFMGBK方法、LFMGBK方法更优于LFGBK方法。3) 在问题类型a和问题类型b中，CFMGBK方法在运行过程中出现了NA报错，在鲁棒性上，SFMGBK方法、LFMGBK方法更优于CFMGBK方法。4) $α = 0.7$ 时在某些情况下加速效果优于 $α = 0.3$ ， $α$ 选取问题属于NP难题范畴，如何确定其最优解是一项极具挑战性的任务。本研究仅提供初步尝试，具体的取值策略尚待解决，这将是未来研究的重点方向。

5. 总结

本文提出了求解大型相容线性方程组的快速免伪逆贪婪块Kaczmarz (LFGBK、CFGBK)方法，并给出了该方法的收敛性理论。为进一步改进快速免伪逆贪婪块Kaczmarz方法的收敛性，使用重力球技术，本文建立了一类求解大型相容线性方程组的加速快速免伪逆贪婪块Kaczmarz方法，并对该类方法的收敛性进行了详细分析。数值实验验证了新方法的有效性。

NOTES

^*通讯作者。

参考文献

[1]	Byrne, C. (2003) A Unified Treatment of Some Iterative Algorithms in Signal Processing and Image Reconstruction. In-verse Problems, 20, 103-120. https://doi.org/10.1088/0266-5611/20/1/006
[2]	Chung, J., Chung, M., Slagel, J.T., et al. (2020) Sampled Limited Memory Methods for Massive Linear Inverse Problems. Inverse Problems, 36, Article ID: 054001. https://doi.org/10.1088/1361-6420/ab77da
[3]	Leskovec, J., Rajaraman, A. and Ullman, J.D. (2020) Mining of Massive Data Sets. Cambridge University Press, Cambridge. https://doi.org/10.1017/9781108684163
[4]	Herman, G.T. and Davidi, R. (2008) Image Reconstruction from a Small Number of Projections. Inverse Problems, 24, Article ID: 045011. https://doi.org/10.1088/0266-5611/24/4/045011
[5]	Lyu, H., Sha, N., Qin, S., et al. (2019) Advances in Neural Information Processing Systems.
[6]	Kaczmarz, S. (1937) Angenäherte Auflösung von Systemen Linearer Glei-chungen. Bulletin L’Académie Polonaise des Science, 35, 355-357.
[7]	Deutsch, F. and Hundal, H. (1997) The Rate of Convergence for the Method of Alternating Projections, II. Journal of Mathematical Analysis and Applications, 205, 381-405. https://doi.org/10.1006/jmaa.1997.5202
[8]	Galántai, A. (2005) On the Rate of Convergence of the Al-ternating Projection Method in Finite Dimensional Spaces. Journal of Mathematical Analysis and Applications, 310, 30-44. https://doi.org/10.1016/j.jmaa.2004.12.050
[9]	Strohmer, T. and Vershynin, R. (2009) A Randomized Ka-czmarz Algorithm with Exponential Convergence. Journal of Fourier Analysis and Applications, 15, 262-278. https://doi.org/10.1007/s00041-008-9030-4
[10]	Needell, D. (2010) Randomized Kaczmarz Solver for Noisy Line-ar Systems. BIT Numerical Mathematics, 50, 395-403. https://doi.org/10.1007/s10543-010-0265-5
[11]	Gower, R.M. and Richtárik, P. (2015) Randomized Iterative Methods for Linear Systems. SIAM Journal on Matrix Analysis and Applications, 36, 1660-1690. https://doi.org/10.1137/15M1025487
[12]	Ma, A., Needell, D. and Ramdas, A. (2015) Convergence Properties of the Randomized Extended Gauss—Seidel and Kaczmarz Methods. SIAM Journal on Matrix Analysis and Applications, 36, 1590-1604. https://doi.org/10.1137/15M1014425
[13]	Richtárik, P. and Takác, M. (2017) Stochastic Reformulations of Linear Systems: Accelerated Method.
[14]	Liu, J. and Wright, S. (2016) An Accelerated Randomized Kaczmarz Algorithm. Mathematics of Computation, 85, 153-178. https://doi.org/10.1090/mcom/2971
[15]	Bai, Z.-Z. and Wu, W.-T. (2018) On Relaxed Greedy Randomized Kaczmarz Methods for Solving Large Sparse Linear Systems. Applied Mathe-matics Letters, 83, 21-26. https://doi.org/10.1016/j.aml.2018.03.008
[16]	Zhang, J. and Guo, J. (2020) On Relaxed Greedy Randomized Coordinate Descent Methods for Solving Large Linear Least-Squares Problems. Applied Numerical Mathematics, 157, 372-384. https://doi.org/10.1016/j.apnum.2020.06.014
[17]	Bai, Z.-Z. and Wu, W.-T. (2018) On Greedy Randomized Kaczmarz Method for Solving Large Sparse Linear Systems. SIAM Journal on Scientific Com-puting, 40, A592-A606. https://doi.org/10.1137/17M1137747
[18]	Du, K. and Gao, H. (2019) A New Theoretical Estimate for the Convergence Rate of the Maximal Weighted Residual Kaczmarz Algorithm. Numerical Mathematics: Theory, Methods and Applications, 12, 627-639. https://doi.org/10.4208/nmtma.OA-2018-0039
[19]	Elfving, T. (1980) Block-Iterative Methods for Consistent and Inconsistent Linear Equations. Numerische Mathematik, 35, 1-12. https://doi.org/10.1007/BF01396365
[20]	Needell, D. and Tropp, J.A. (2014) Paved with Good Intentions: Analy-sis of a Randomized Block Kaczmarz Method. Linear Algebra and Its Applications, 441, 199-221. https://doi.org/10.1016/j.laa.2012.12.022
[21]	Needell, D., Zhao, R. and Zouzias, A. (2015) Randomized Block Kaczmarz Method with Projection for Solving Least Squares. Linear Algebra and Its Applications, 484, 322-343. https://doi.org/10.1016/j.laa.2015.06.027
[22]	Niu, Y.-Q. and Zheng, B. (2020) A Greedy Block Kaczmarz Algo-rithm for Solving Large-Scale Linear Systems. Applied Mathematics Letters, 104, Article ID: 106294. https://doi.org/10.1016/j.aml.2020.106294
[23]	Rebrova, E. and Needell, D. (2021) On Block Gaussian Sketching for the Kaczmarz Method. Numerical Algorithms, 86, 443-473. https://doi.org/10.1007/s11075-020-00895-9
[24]	Necoara, I. (2019) Faster Randomized Block Kaczmarz Algo-rithms. SIAM Journal on Matrix Analysis and Applications, 40, 1425-1452. https://doi.org/10.1137/19M1251643
[25]	Moorman, J.D., Tu, T.K., Molitor, D., et al. (2021) Randomized Kacz-marz with Averaging. BIT Numerical Mathematics, 61, 337-359. https://doi.org/10.1007/s10543-020-00824-1
[26]	Du, K., Si, W.-T. and Sun, X.-H. (2020) Randomized Extended Average Block Kaczmarz for Solving Least Squares. SIAM Journal on Scientific Computing, 42, A3541-A3559. https://doi.org/10.1137/20M1312629
[27]	Zouzias, A. and Freris, N.M. (2013) Randomized Extended Kaczmarz for Solving Least Squares. SIAM Journal on Matrix Analysis and Applications, 34, 773-793. https://doi.org/10.1137/120889897
[28]	Du, K. and Sun, X.-H. (2020) Pseudoinverse-Free Randomized Block It-erative Algorithms for Consistent and Inconsistent Linear Systems.
[29]	张建华, 郭静慧. 一类快速免伪逆贪婪块KACZMARZ方法[J]. 高等学校计算数学学报, 2022, 44(3): 285-298.
[30]	Chen, K., Li, Q., Newton, K., et al. (2020) Structured Random Sketching for PDE Inverse Problems. SIAM Journal on Matrix Analysis and Applications, 41, 1742-1770. https://doi.org/10.1137/20M1310497
[31]	Pilanci, M. and Wainwright, M.J. (2017) Newton Sketch: A Near Linear-Time Optimization Algorithm with Linear-Quadratic Convergence. SIAM Journal on Optimization, 27, 205-245. https://doi.org/10.1137/15M1021106
[32]	Mor-Yosef, L. and Avron, H. (2019) Sketching for Principal Component Regression. SIAM Journal on Matrix Analysis and Applications, 40, 454-485. https://doi.org/10.1137/18M1188860
[33]	Yang, Y., Pilanci, M. and Wainwright, M.J. (2017) Randomized Sketches for Kernels: Fast and Optimal Nonparametric Regression. Annals of Statistics, 45, 991-1023. https://doi.org/10.1214/16-AOS1472
[34]	Avron, H., Clarkson, K.L. and Woodruff, D.P. (2017) Faster Kernel Ridge Regression Using Sketching and Preconditioning. SIAM Journal on Matrix Analysis and Applications, 38, 1116-1138. https://doi.org/10.1137/16M1105396
[35]	Woodruff, D.P. (2014) Sketching as a Tool for Numerical Linear Algebra. Foundations and Trends® in Theoretical Computer Science, 10, 1-157. https://doi.org/10.1561/0400000060
[36]	Jarman, B., Yaniv, Y. and Needell, D. (2022) Online Signal Recovery via Heavy Ball Kaczmarz. Proceedings of the 2022 56th Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, 31 October-2 November 2022, 276-280. https://doi.org/10.1109/IEEECONF56349.2022.10052070
[37]	Zhang, Y. and Li, H. (2021) A Count Sketch Maximal Weighted Residual Kaczmarz Method for Solving Highly Overdetermined Linear Systems. Applied Mathemat-ics and Computation, 410, Article ID: 126486. https://doi.org/10.1016/j.amc.2021.126486
[38]	Rudi, A., Calandriello, D., Carratino, L., et al. (2018) On Fast Leverage Score Sampling and Optimal Learning. 32nd Conference on Neural Information Processing Systems (NeurIPS 2018), Montréal, 3-8 December 2018, 5672-5682.
[39]	Cohen, M.B., Musco, C. and Musco, C. (2017) Input Sparsity Time Low-Rank Approximation via Ridge Leverage Score Sampling. Proceedings of the 28th Annual ACM-SIAM Sym-posium on Discrete Algorithms, Barcelona, 16-19 January 2017, 1758-1777. https://doi.org/10.1137/1.9781611974782.115
[40]	Ailon, N. and Chazelle, B. (2009) The Fast John-son-Lindenstrauss Transform and Approximate Nearest Neighbors. SIAM Journal on Computing, 39, 302-322. https://doi.org/10.1137/060673096

为你推荐

友情链接