Modellierung lernender Systeme durch Neuronale Netze (NN)

Klüver, Christina; Klüver, Jürgen; Schmidt, Jörn

doi:10.1007/978-3-658-43408-3_5

Christina Klüver⁴,
Jürgen Klüver⁴ &
Jörn Schmidt⁴

429 Accesses

Zusammenfassung

Neuronale Netze gehören, wie bereits in der Einleitung erwähnt, zu den wichtigsten Algorithmen in den Bereichen der KI-Forschung und des Maschinellen Lernens (Machine Learning – ML). Gerade hier hat in den letzten Jahren eine ungemein dynamische Entwicklung stattgefunden. Auf die verschiedenen Erweiterungen der Grundlogik neuronaler Netze, die z. T. kaum noch übersehbar sind, können wir in dieser Einführung nur durch einzelne Beispiele verweisen. Wie bei den anderen Kapiteln geht es auch hier vor allem darum, die allgemeine Logik dieser speziellen (und sehr vielfältigen) Algorithmen so darzustellen, dass eine eigene Beschäftigung auch mit neuesten Entwicklungen möglich und sinnvoll wird.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Softcover Book: USD 39.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Insbesondere im Zusammenhang mit „Deep Learning“ wird die Netto-Inputfunktion praktisch nicht mehr erwähnt.
2.
Man kann natürlich die Schwellenwertfunktion als Aktivierungsfunktion bestimmen, dann ist die Ausgabefunktion die Identitätsfunktion.
3.
Der Vollständigkeit halber sei noch erwähnt, dass die Notwendigkeit einer Zwischenschicht für die Darstellung der XOR-Funktion „nur“ für den Fall von sog. feed forward Netzen gilt (s. u.), also Netze, bei denen es nur Verbindungen von der Eingabeschicht und ggf. über Zwischenschichten zur Ausgabeschicht gibt. Führt man z. B. auch Verbindungen zwischen den Neuronen in der Eingabeschicht ein, dann kann man ohne Zwischenschicht auskommen. Das hat einer unserer Studierenden, nämlich Robert Hetka (ein promovierter Arzt), gezeigt.
4.
In den Formeln w.u. zu dreischichtigen Netzen wird in der Formel nicht mehr $a_{j}$ eingesetzt, sondern $o_{j}$, um deutlich zu machen, dass es sich um den Aktivierungswert des Ausgabeneurons (output j) handelt.
5.
Eine detaillierte Darstellung der exakten Berechnung im Fall der Backpropagation-Regel findet sich z. B. in Schmidt et al. (2010).
6.
Die Ähnlichkeit der Begriffe „Graphik“ und „Graph“ ist natürlich kein Zufall und man möge dies nicht als unfreiwilligen Kalauer missverstehen.
7.
Dabei kann der Fall auftreten, dass bei ${\text{w}}_{{{\text{ij}}}} = 0$ zwischen i und j keine Kante existiert, für ${\text{w}}_{{{\text{ij}}}} \ne 0$ w_ij jedoch eine Kante zwischen j und i. Man sieht, wie wichtig die Definition von NN als gewichtete und damit gerichtete Graphen ist.
8.
Wir haben dies Maß aus theoretischen Gründen als MC bezeichnet, die hier nicht weiter erläutert werden können (vgl. Klüver & Klüver, 2011).
9.
Die Enforcing Activation Function wurde von Viktor Schäfer entwickelt, die relative Funktion von Björn Zurmaar (Zurmaar, 2021).
10.
Dazu zählen ebenso Hopfield-Netzwerke sowie ART-Netzwerke von Grossberg (Klüver & Klüver, 2022).
11.
Es handelt sich genauer um die logistische Funktion, da die tanh ebenfalls zur Klasse der sigmoiden Funktionen gehört.
12.
Die Darstellung der LSTM erfolgt nach dem Blog von Christopher Olah: https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (letzter Zugriff am 21.09.2023).
13.
Bei k-Means handelt es sich um ein partitionierend iteriertes Minimaldistanzverfahren (von der Hude, 2020).
14.
Die Funktionsweise erinnert an BAM-Netzwerke (Kap. 7; Stoica-Klüver et al., 2009; Schmidt et al., 2010).
15.
Mit freundlicher Genehmigung und Übermittlung der Bilder sowie der aktuellen Version (Oktober, 2023) von Dan Jurafsky und Jim Martin von der Stanford University.
16.
Dua, D. and Graff, C. (2019). UCI Machine Learning Repository (http://archive.ics.uci.edu/ml). Irvine, CA: University of California, School of Information and Computer Science.
17.
https://archive.ics.uci.edu/ml/datasets/Optical%2BRecognition%2Bof%2BHandwritten%2BDigits (letzter Zugriff am 25.09.2023).
18.
Die Konfusionsmatrix wurde von Simon Matthias Busley implementiert.
19.
http://yann.lecun.com/exdb/mnist/
20.
Residuen spielen für Regressionsmodelle eine Rolle; es wird eine Maßzahl gesucht, die angibt, wie stark die Funktion für Vorhersagen von tatsächlichen Beobachtungen abweicht.
21.
Promovierter Wirtschaftswissenschaftler und Gesundheitsökonom.
22.
Wir verwenden den Begriff Optimierer, um von den Optimierungsverfahren in Kap. 4 zu unterscheiden.
23.
Dabei handelt es sich um die Forschungsgruppe um Jeremy Howard und Rachel Thomas, die Codes und Bibliotheken für Deep Learning zur Verfügung stellen (https://www.fast.ai/about/ – fast-ai).
24.
https://paperswithcode.com/sota/image-classification-on-imagenet
25.
Antonius Reifferscheid hat zusätzliche Optimierer untersucht, die hier nicht näher dargestellt werden.
26.
In der Formel wird $\alpha$ durch $\beta$ ersetzt, um an den aktuellen Darstellungen anzupassen.
27.
Für DRUSEN wurde offensichtlich ein Bild nicht berücksichtigt.
28.
Studiengang Märkte und Unternehmen an der Universität Duisburg-Essen.
29.
Es handelt sich um die „Cloud Instructor“ Option für 15 US$, mit einer Bereitstellung von 16 GB RAM und eine Vierkern-CPU.
30.
Krautsack, 2023: https://shoelove.deichmann.com/at-de/2023/01/was-man-mit-ausgedienten-schuhen-machen-kann/ (letzter Zugriff am 26.09.2023).
31.
Studiengang Digital Business – Innovation and Transformation an der Universität Duisburg-Essen.
32.
Eine Open-Source Webanwendung, die u. A. für Modelle des Maschinellen Lernens und der Statistik verwendet wird. Es wird ein kostenloser Zugang zur Recheninfrastruktur wie Speicher, Arbeitsspeicher, Verarbeitungskapazität, Grafikprozessoren (GPUs) und Tensor Processing Units (TPUs) gewährt.
33.
Es ist davon auszugehen, dass die Generierung von Codes durch Methoden des maschinellen Lernens zunehmen wird (Dehaerne et al., 2022).
34.
Jetzt wird es deutlicher warum in Methoden des Maschinellen Lernens, insbesondere des Deep Learning, ergänzende Daten (Data Augmentation) benötigt werden, um eine bessere Generalisierbarkeit der Daten und damit der Klassifikation zu ermöglichen.
35.
Die Daten entsprechen der Tab. 3.6 aus Abschn. 3.5.3.2.
36.
Die Konstruktion einer „Optimalalternative“ hat Arndt (2023) als Entscheidungsunterstützung eingesetzt, um die Wirtschaftlichkeit von Nutzfahrzeugen im Kurier-, Express- und Paketsegment (KEP-Segment) zu bestimmen, unter dem Aspekt der Green Logistics und City Logistics. Der Vergleich wurde in diesem Fall mit der Methode „Analytic Network Process“ (ANP) durchgeführt.
37.
https://de.wikipedia.org/wiki/Liste_der_Offshore-Windparks

Author information

Authors and Affiliations

Forschungsgruppe CoBASC, Essen, Deutschland
Christina Klüver, Jürgen Klüver & Jörn Schmidt

Authors

Christina Klüver
View author publications
You can also search for this author in PubMed Google Scholar
Jürgen Klüver
View author publications
You can also search for this author in PubMed Google Scholar
Jörn Schmidt
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Christina Klüver .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Klüver, C., Klüver, J., Schmidt, J. (2024). Modellierung lernender Systeme durch Neuronale Netze (NN). In: Modellierung komplexer Prozesse durch naturanaloge Verfahren. Springer Vieweg, Wiesbaden. https://doi.org/10.1007/978-3-658-43408-3_5

Download citation

DOI: https://doi.org/10.1007/978-3-658-43408-3_5
Published: 21 March 2024
Publisher Name: Springer Vieweg, Wiesbaden
Print ISBN: 978-3-658-43407-6
Online ISBN: 978-3-658-43408-3
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics