Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-5177
Autor(en): Hang, Hanyuan
Titel: Statistical learning of kernel-based methods for non-i.i.d. observations
Sonstige Titel: Statistisches Lernen mit Kern-basierten Methoden für nicht-u.i.v. Beobachtungen
Erscheinungsdatum: 2015
Dokumentart: Dissertation
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-103617
http://elib.uni-stuttgart.de/handle/11682/5194
http://dx.doi.org/10.18419/opus-5177
Zusammenfassung: Statistical learning theory has proved itself in many practical applications such as computer vision, speech recognition, bioinformatics, etc. So far, most results in statistical learning theory presume that successive data points are independent of one another. This is mathematically convenient, but clearly not always suitable for non-i.i.d. processes including many time series. For instance, most of the techniques have been developed in ways which have rendered it impossible to apply it immediately to time series forecasting problems. To address these problems, recent work has adapted key results such as the concentration inequalities and the resulting oracle inequalities to the situations where time widely-separated data points are asymptotically independent. Motivated by this, in this thesis, we will establish a new oracle inequality for generic regularized empirical risk minimization algorithms based on a generic form of a Bernstein inequality and use this oracle inequality to derive learning rates from two classes of non-i.i.d. processes called alpha- and C-mixing processes. Applying this oracle inequality to alpha-mixing processes, we derive learning rates for some learning methods such as empirical risk minimization (ERM), least squares support vector machines (LS-SVMs) using given generic kernels, and support vector machines (SVMs) using the Gaussian RBF kernels for both least squares and quantile regression. It turns out that for i.i.d. processes our learning rates for ERM and SVMs with Gaussian kernels match, up to some arbitrarily small extra term in the exponent, the optimal rates, while in the remaining cases our rates are at least close to the optimal rates. For geometrically C-mixing processes that include the classical geometrically phi-mixing processes, Rio's generalization of these processes, as well as many time-discrete dynamical systems, we establish a Bernstein-type inequality of the generic form that coincides with the classical Bernstein inequality for i.i.d. data modulo a logarithmic factor and some constants. Applying the oracle inequality to support vector machines using the Gaussian kernels for both least squares and quantile regression, it turns out that the resulting learning rates match, up to some arbitrarily small extra term in the exponent, the optimal rates for i.i.d. processes.
Die statistische Lerntheorie findet viele praktische Anwendungen,beispielsweise in den Bereichen der Bildverarbeitung, der Spracherkennung oder der Bioinformatik. Bisher setzten die meisten Resultate der statistischen Lerntheorie voraus, dass aufeinanderfolgende Datenpunkte unabhängig voneinander sind. Dies ist aus mathematischer Sicht angenehm, für einige Situationen aber nicht geeignet, wie zum Beispiel für nicht-u.i.v. Prozesse einschließlich vieler Zeitreihen. Weiterhin sind bisher einige Techniken in einer Weise konstruiert worden, die es einem unmöglich machen, diese direkt für Vorhersagen von Zeitreihen anzuwenden. Um diese Probleme anzugehen, haben neueste Arbeiten wichtige Ergebnisse geliefert für den Fall, dass Datenpunkte asymptotisch unabhängig sind. Wie zum Beispiel die Konzentrationsungleichungen und die daraus resultierenden Orakelungleichungen. Dadurch motiviert werden wir in dieser Arbeit eine neue Orakelungleichung für allgemeine, regularisierte empirische Risikominimierungsalgorithmen vorstellen, welche auf einer allgemeinen Form der Bernstein-Ungleichung basiert. Darüber hinaus leiten wir Lernraten für zwei Klassen von nicht-u.i.v. Prozessen her, nämlich, den alpha- und den C-mischenden Prozess. Unter Verwendung dieser Orakelungleichung für alpha-mischende Prozesse leiten wir Lernraten für einige Lernmethoden her, wie zum Beispiel für empirische Risikominimierung (ERM), least square support vector machines (LS-SVMs) mit allgemeinen Kernen und support vector machines (SVMs) mit Gauss kernen für least square and Quantilregression. Es stellt sich heraus, dass für u.i.v. Prozesse, unsere erhaltenen Lernraten für ERM und SVMs mit Gausskernen - bis zu einem gewissen beliebig kleinen zusätzlichen Term im Exponenten - den optimalen Raten entsprechen, während in den übrigen Fällen unsere Raten zumindest nahe an den optimalen Raten sind. Für geometrische C-mischende Prozesse, welche klassische geometrische phi-mischende Prozesse, Rio's Verallgemeinerungen dieser Prozesse, als auch viele zeitdiskrete dynamischen Systeme enthalten, leiten wir eine Bernstein-Typ-Ungleichung her, welche die allgemeine Form besitzt und mit der klassischen Bernstein-Ungleichung für u.i.v. Daten - modulo eines logarithmischen Faktors und einiger Konstante - übereinstimmt. Unter Verwendung der Orakelungleichung für SVMs mit Gausskernen für least square und Quantilregression stellt sich heraus, dass die resultierenden Lernraten - bis zu einem gewissen beliebig kleinen zusätzlichen Term im Exponenten - den optimalen Raten für u.i.v. Prozesse entsprechen.
Enthalten in den Sammlungen:08 Fakultät Mathematik und Physik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Diss_Hang_update2.pdf669,51 kBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.