1. 引言
大规模相容线性方程组的高效求解对科学与工程应用 [1] [2] [3] [4] [5] 具有重要意义和实际价值。
(1)
经典Kaczmarz算法 [6] 以其结构简明和易于实施的特点,在大规模线性方程组求解中显现优势。该算法每次迭代仅处理单个行样本,保证了简洁高效,尽管其收敛性难以与其他迭代方法 [7] [8] 进行比较且可能较慢。研究人员正致力于优化Kaczmarz算法,以提升其在实际应用中的表现,确保在科学和工程领域的高效解决方案。
Strohmer和Vershynin [9] 近期提出的随机Kaczmarz (RK)方法,以其依赖于矩阵规范化条件数的快速收敛性而备受关注。该方法采用概率策略选取矩阵行指标,即根据公式
来选择行指标,能在特定条件下超越传统共轭梯度法。研究者对Kaczmarz方法持续优化,扩展至包括不相容、欠定和秩亏线性方程组 [10] [11] [12] 的收敛性分析,并引入Nesterov加速框架 [13] [14] 和贪婪策略 [15] [16] [17] [18] 等加速技巧。这些进展对解决线性方程组和优化问题领域产生了深远影响。
块Kaczmarz (BK)方法 [19] 及其变体如随机块Kaczmarz (RBK) [20] 、随机双块Kaczmarz (RDBK) [21] 和贪婪块Kaczmarz (GBK) [22] ,针对线性方程组求解展现出高效迭代性能。这些算法通过分块策略,有效利用方程信息,实现快速收敛。特别是在处理不相容系统和大规模数据时,这些方法通过随机选择和贪婪选择块,优化了迭代过程,提升了稳定性和收敛性。块高斯Kaczmarz方法(BGK) [23] 融合高斯Sketching技术,优化分布式计算性能,实现大型线性系统的有效分解与并行解算。然而,算法中伪逆计算和最小二乘问题求解的高计算量是挑战所在,优化这些关键步骤是当前研究的焦点。
Necoara提出的随机平均块Kaczmarz (RABK)方法 [24] ,Moorman等 [25] 研究了RABK方法在解不相容线性方程组中的收敛性理论,其衍生的简单随机扩展平均块Kaczmarz (REABK)方法 [26] ,该方法结合了随机扩展Kaczmarz (REK)方法 [27] 和RABK方法。Du和Sun扩展了该方法,并提出了一种免于使用伪逆的随机块迭代算法 [28] ,适用于解决一致与不一致线性方程组。最近,Zhang Jianhua等人在REABK的基础上推出了快速免伪逆贪婪块Kaczmarz (CFGBK)方法 [29] ,在处理相容与不相容线性方程组方面展现出高效性,但是随着研究发现该方法由于每步迭代
存在出现为零的情况导致收敛失败,本文提出了一种新型加速免伪逆贪婪对该问题进行了研究并解决。
矩阵Sketching技术作为提升矩阵运算速度的关键工具,在偏微分方程反问题 [30] 、优化 [31] 与回归分析 [32] [33] [34] [35] 等多个领域发挥着至关重要的作用。本研究创新性地提出了两种基于近似最大距离准则的免伪逆贪婪块Kaczmarz方法(LFGBK、CFGBK),通过精心选择采样矩阵和迭代策略,显著缩短了运算时间,同时保持了精度,并深入分析了其收敛性。此外,借助重力球技术,进一步提出了三种加速方法(CMFGBK、LMFGBK、CMFGBK),并建立了完备的收敛性理论框架。经过数值实验验证,这些方法不仅提高了计算效率,也为矩阵Sketching技术的进一步优化奠定了坚实基础。
本文结构如下:第二节介绍预备知识和贪婪块Kaczmarz方法和免伪逆贪婪块Kaczmarz方法。第三节提出改进免伪逆贪婪块Kaczmarz方法并给分析。第四节给出数值实验。第五节总结全文。
2. 预备知识
在本文中,我们采用文献中 [17] 同样的记号。例如
、
、
、
、
、
分别表示系数矩阵A的第i行、转置、广义逆、谱范数、F-范数和集合
。
我们首先考虑贪婪选择规则,然后使用贪婪策略提供一个贪婪块Kaczmarz算法。在研究贪婪选择规则在kaczmarz型算法中的应用的文献中,很少有结果。Nutini等人在 [16] 中提出了Kaczmarz算法的最大残差(MR)和最大距离(MD)规则。然而,在许多应用程序中,由于其复杂的表达式,计算精确的MR或MD规则将过于低效,但我们可以通过使用更便宜的近似贪婪规则来近似它,如 [18] 方法。在本节中,我们将考虑计算贪婪规则直至乘法误差的方法。
再给出收敛性分析之前首先介绍引理。
引理1 [36] 让
是一个非负实数矩阵,其中
满足关系式
对所有
成立,这里
且
。对所有
下列不等式成立:
其中,
和
。
引理2 [17] 如果任意向量
,则
引理3 [35] [37] 如果S是含有
行稀疏随机变换,其中那么不等式
和
成立的概率均为
。
定义1 [35] (CountSketch变换):设
是一个随机映射,使得每个
,
对每个
成立的概率为1/d,
是一个
二值矩阵,其中其余元素均为0。D是
。随机对角矩阵,每个对角元素以相同的概率独立选择值为1或者−1。则CountSketch变换定义为
。
定义1描述了CountSketch变换的基本过程:首先,通过随机映射h和二值矩阵
将输入矩阵的行映射到较低的维度空间;然后,通过随机对角矩阵D对映射后的结果进行随机翻转。这个过程可以有效地减小矩阵的大小,同时保持某些重要的信息。
Algorithm 1. 基于流形式的CountSketch方法
定义2 [38] [39] (Leverage Score Sampling变换):给定矩阵
,其奇异值分解为
,其行杠杆得分给出U行的欧几里得范数得平方,即对于每个
,
,同时满足
和
。杠杆得分抽样也可以描述为“帽矩阵”。
定义2描述了Leverage Score Sampling变换的基本过程,首先设A是一个
的矩阵,每一行的Leverage Score是该行在A的奇异值分解中对应的右奇异向量的范数的平方。这个得分衡量了每一行在数据集中的重要性或影响力。这种采样方法的优点是,它可以从大数据集中选择出一小部分具有代表性的样本,从而进行更高效的计算。所得到的样本集
,其中k是选定的样本数量,可以用于估计原矩阵CA的各种性质,例如奇异值分解、主成分分析等。
Algorithm 2. 基于流形式的Leverage Score Sampling方法
定义3 [40] (Sparse Random Projection变换):设矩阵
,其中
,则
。
定义3描述了Sparse Random Projection变换的基本过程,首先Sparse Random Projection投影后的维度k,然后构造一个
的稀疏矩阵R。对于R中的每一列,我们随机选择一个元素并赋值为+1或−1,其余元素设为0。这个稀疏随机矩阵的每一列都只有一个非零元素,该元素的位置在每一列中都是随机选择的,其值是根据一个预先定义的分布随机选择的。这种方法的优点是它的计算效率高,因为乘以稀疏矩阵的计算复杂度低。这种方法在处理高维数据时,特别是在近似最近邻搜索和其他需要降维的应用中,被广泛使用。此外,由于R的元素大部分是0,所以投影后的数据也会保持原始数据的稀疏性。
Algorithm 3. 基于流形式的Sparse Random Projection方法
定义4 [36] (Heavy Ball Momentum优化):重球动量是一种广泛添加到梯度下降方法中的增强方法,它在每个迭代步骤中不仅采取梯度下降的步骤,还额外在前一迭代步骤的移动方向上采取一步。这一方法最初由Polyak在1964年提出,后来在机器学习领域广泛应用。
Algorithm 4. Heavy Ball Momentum优化方法
假设我们已经近似了MD规则,其中有一个参数
,用于选择指标
Niu和Zheng将贪婪策略与块Kaczmarz方法相结合,提出了求解大型相容线性方程组的贪婪块Kaczmarz (GBK) [22] 方法,具体过程见算法5。
Algorithm 5. GBK方法
GBK方法的收敛性分析描述如下:
定理1 [22] 设线性方程组(1)相容,则由算法7生成的迭代序列收敛到方程组的最小范数解
,且对任意
满足
其中
(记
),
,
和
分别表示矩阵A的非零最小奇异值和最大奇异值。
3. 改进免伪逆贪婪块Kaczmarz方法及其收敛性分析
由于CFGBK方法每步迭代
存在出现为零的情况,本节提出了改进免伪逆贪婪块Kaczmarz方法。首先每步采用近似最大举例准则
选择块矩阵
,的指标集
;其次,将当前估计值投影到构成块矩阵
的每一行上;最后,对得到的投影求平均值来计算下一次迭代,即
Algorithm 6. LFGBK方法
Leverage Score Sampling可以从大数据集中选择出一小部分具有代表性的样本,从而进行更高效的计算与CFGBK相比,采样比Count Sketch采样更高效,第四节中的数值实验将证实LFGBK方法比CFGBK更高效。
本文只讨论
的情况,下面给出LFGBK方法求解大型相容线性方程组(1)的收敛性理论。
定理2 设Leverage Score变换S满足
,
是相容线性方程组(1)的最小范数解,对任意
满足
(2)
其中
,
,且
和
分别表示矩阵A的值域,非零最小奇异值和最大奇异值。
证明 由算法6和
,我们可以得到
(3)
设
和
,将(3)式子展开可得
(4)
其中
(5)
和
(6)
(4)式同时减去
,可得
(7)
对(7)式两边同时取谱范数并平方,又对任意半正定矩阵
满足
,从而可以得到
(8)
由(5)式和
通过简单计算可得
(9)
把
带入上式,可得
(10)
由
和
,故
,从而由引理2可得
结合上式,可得
(11)
因此,联合(11)式和(8)式,我们可得(2)式,故定理2得证。
Algorithm 7. SFGBK方法
Sparse Random Projection这个稀疏随机矩阵的每一列都只有一个非零元素,该元素的位置在每一列中都是随机选择的,其值是根据一个预先定义的分布随机选择的。这种方法的优点是它的计算效率高,因为乘以稀疏矩阵的计算复杂度低。从而进行更高效的计算作为参照,第四节中的数值实验将给出SFGBK的数据。
本文只讨论
的情况,下面给出LFGBK方法求解大型相容线性方程组(1)的收敛性理论。
定理3 设Sparse Random Projection变换S满足
,
是相容线性方程组(1)的最小范数解,则对任意
,由SFGBK方法生成的迭代序列
满足
(12)
的概率为
其中
,
,且
和
分别表示矩阵A的非零最小奇异值和最大奇异值。
证明 由算法7和
,我们可以得到
(13)
设
和
,将(13)式子展开可得
(14)
其中
(15)
和
(16)
(14)式同时减去
,可得
(17)
对(17)式两边同时取谱范数并平方,又对任意半正定矩阵
满足
,从而可以得
(18)
由(15)式和
,通过简单计算可得
(19)
把
带入(19)式,可得
(20)
由
和
,故
,从而由引理3可得
(21)
成立的概率为
,结合上式,可得
(22)
成立的概率为
,又
,则由引理3可得
成立的概率为
。故
(23)
成立的概率至少为
。
因此我们可得(12)式成立的概率为
。故定理3得证。
Algorithm 8. CMFGBK方法
定理4 设CountSketch变换S满足
,
是相容线性方程组(1)的最小范数解,则对任意
由算法8生成迭代序列
收敛到方程组最小范数解
且对任意
满足
的概率为
,其中
,
,
,
,
和
,有
。
证明 由算法8,我们可以得到
设
和
,其中t表示指标集
中元素的个数,可得
上式同时减去
,可得
对上式两边同时取谱范数并平方,可得
(24)
由Kaczmarz收敛论证和
,对等式(24)的第一个项给出下界,可得
由首项加上并减去
和
,对等式(24)的第二个项给出下界,可得
等式(24)的第三个项给出下界,可得
结合三个下界,简化内积并归类相似项,可得:
由引理3,可得
成立的概率为
,结合上式可得
最后,由引理1,其中两个系数为
和
,由于我们假设
和
,由
,可得
其中,
,
和
,有
,可得我们证明了CMFGBK算法的收敛性。
Algorithm 9. LMFGBK方法
定理5 设Leverage Score变换S满足
,
是相容线性方程组(1)的最小范数解和则对任意
由算法9生成迭代序列
收敛到方程组的最小范数解
且对任意
满足
其中,
,
,
,
,
和
,有
,可得我们证明了LMFGBK算法的收敛性。
证明 由算法9,我们可以得到
设
和
,其中t表示指标集
中元素的个数,可得
上式同时减去
,可得
对上式两边同时取谱范数并平方,可得
(25)
由Kaczmarz收敛论证和
,对等式(25)的第一个项给出下界,可得
由首项加上并减去
和
,对等式(25)的第二个项给出下界,可得
等式(25)的第三个项给出下界,可得
结合三个下界,简化内积并归类相似项,可得:
最后,由引理1,其中两个系数为
和
,由于我们假设
和
,由
,可得
其中,
,
和
,有
,可得我们证明了LMFGBK算法的收敛性。
定理6 设Sparse Random Projection变换S满足
,
是相容线性方程组(1)的最小范数解,则对任意
由算法10生成迭代序列
收敛到方程组的最小范数解
且对任意
满足
的概率为
,其中
,
,
,
,
和
,有
,算法8证明类似,同理可得SMFGBK算法的收敛性。
定理4~6表明应用重力球技术的Kaczmarz算法(即本研究提出的算法CFMGBK、LFMGBK和SFMGBK)呈指数级收敛,其收敛速度超过传统的CFGBK算法。
Algorithm 10. SMFGBK方法
4. 数值实验
本节,我们通过几组数值算例来比较GBK方法、改进FGBK方法和CFGBK方法求 [17] 解大型相容线性方程组(1)的有效性。所有实验均通过MATLAB编程实现,IT和CPU分别表示迭代步数和计算时间(单位:秒)。类似于文献,IT和CPU的取值均为50次重复运行所需要的迭代步数和计算时间的平均值。在所有的计算过程中,我们令初始向量
和右端项
,其中x为相容线性方程组的解向量并由MATLAB函数randn生成。置停机准则为
,在实际计算中条件
非常严格,在很多实际问题计算过程中Sketching因子
可以取得很好的数值效果。我们考虑的系数矩阵
。类型a:
。类型b:
,其中
,
和
,且
和D分别由
和
生成,易计算系数矩阵A的条件数的上界为k。
Table 1. Numerical experimental results of FGBK, CFGBK, LFGBK, and SFGBK when A = r a n d n ( m , n )
表1.
时,FGBK、CFGBK、LFGBK和SFGBK的数值实验结果
Table 2. Numerical experimental results of FGBK, CFGBK, LFGBK, and SFGBK when A = U D V T , k = 1.5
表2.
时,FGBK、CFGBK、LFGBK和SFGBK的数值实验结果,
从表1和表2的数值结果,我们可得如下结论:1) FGBK方法、CFGBK方法、LFGBK方法和SFGBK方法都是有效的。2) FGBK方法的迭代步数比CFGBK方法、LFGBK方法和SFGBK方法的迭代步数少,但是在计算时间上,CFGBK方法、LFGBK方法和SFGBK方法更优于FGBK方法。3) 在问题类型a和问题类型b中,CFGBK方法在运行过程中出现了NA报错,在鲁棒性上,FGBK方法、LFGBK方法和SFGBK方法更优于CFGBK方法。4)
时加速效果要优于
时的情形。
Table 3. Numerical experimental results for LFGBK, CFMGBK, LFMGBK, and SFMGBK when A = r a n d n ( m , n )
表3.
时,LFGBK、CFMGBK、LFMGBK和SFMGBK的数值实验结果
Table 4. Numerical experimental results for LFGBK, CFMGBK, LFMGBK, and SFMGBK when A = U D V T , k = 1.5
表4.
时,LFGBK、CFMGBK、LFMGBK和SFMGBK的数值实验结果,
从表3和表4的数值结果,我们可得如下结论:1) CFMGBK方法、LFMGBK方法和SFMGBK方法求解大型相容线性方程组都是有效的。2) CFMGBK方法、LFMGBK方法和SFMGBK方法在迭代步数和计算时间上,CFMGBK方法、LFMGBK方法更优于LFGBK方法。3) 在问题类型a和问题类型b中,CFMGBK方法在运行过程中出现了NA报错,在鲁棒性上,SFMGBK方法、LFMGBK方法更优于CFMGBK方法。4)
时在某些情况下加速效果优于
,
选取问题属于NP难题范畴,如何确定其最优解是一项极具挑战性的任务。本研究仅提供初步尝试,具体的取值策略尚待解决,这将是未来研究的重点方向。
5. 总结
本文提出了求解大型相容线性方程组的快速免伪逆贪婪块Kaczmarz (LFGBK、CFGBK)方法,并给出了该方法的收敛性理论。为进一步改进快速免伪逆贪婪块Kaczmarz方法的收敛性,使用重力球技术,本文建立了一类求解大型相容线性方程组的加速快速免伪逆贪婪块Kaczmarz方法,并对该类方法的收敛性进行了详细分析。数值实验验证了新方法的有效性。
NOTES
*通讯作者。