1 Einleitung

Mietspiegel wurden vor etwa 50 Jahren als marktregulierendes Instrument durch das 1974 beschlossene Wohnraumkündigungsschutzgesetz eingeführt. Sie geben dabei die sogenannte ortsübliche Vergleichsmiete an, die durch Merkmale wie Wohnungsgröße und Beschaffenheit der Wohnung beeinflusst wird. Das Bürgerliche Gesetzbuch (BGB) regelt dabei in § 558 Abs. 2 BGB die verpflichtenden Merkmale wie Art, Größe, Ausstattung und Lage der Wohnung. Mietspiegel werden generell unterschieden in einfache Mietspiegel und qualifizierte Mietspiegel, als auch in Regressions- und Tabellenmietspiegel. Wir betrachten hier ausschließlich qualifizierte Regressionsmietspiegel. Der Mietspiegelreport der Gesellschaft für Immobilienforschung (Sebastian und Memis 2021) liefert seit einigen Jahren einen immer detaillierter werdenden Bericht über die Mietspiegel in den deutschen Städten und gibt darüber hinaus eine Beurteilung der Qualität der Mietspiegel. Eine generelle Diskussion über die Qualität von Mietspiegeln aus statistischer Sicht findet sich auch in Freund et al (2013) oder Kauermann und Windmann (2016). Die ökonomische Rolle von Mietspiegeln wird in Lerbs und Sebastian (2015) beleuchtet.

In diesem Artikel wollen wir uns der Frage widmen, wie sogenannte außergesetzliche und gesetzliche Merkmale gemeinsam im Mietspiegel verarbeitet werden können. Wir zeigen aus Sicht der Statistik Möglichkeiten und Folgen der Berücksichtigung außergesetzlicher Merkmale auf. Dem Mietspiegelreformgesetz (Bundesgesetzeblatt 2021) folgend sind gesetzliche Merkmale nach § 2 Abs. 1 dabei wie folgt definiert: Wohnwertrelevante gesetzliche Merkmale sind die in § 558 Absatz 2 Satz 1 des Bürgerlichen Gesetzbuchs genannten Merkmale Art, Größe, Ausstattung, Beschaffenheit und Lage einer Wohnung, soweit sie für die Mietpreisbildung relevant sind oder im Erstellungsstadium des Mietspiegels relevant sein können. Demgegenüber stehen außergesetzliche Merkmale, die definiert sind als: Außergesetzliche Merkmale sind Merkmale in Bezug auf die Wohnung oder das Mietverhältnis, die in § 558 Absatz 2 Satz 1 des Bürgerlichen Gesetzbuchs nicht genannt sind, aber dennoch für die Mietpreisbildung relevant sind oder im Erstellungsstadium des Mietspiegels relevant sein können. Hierunter fallen beispielsweise die Mietdauer oder der Vermietertyp. Bisher waren auf Grund der Definition von Mietspiegeln (§ 558 Abs. 2 Satz 1 BGB) außergesetzliche Merkmal bei der Mietspiegelerstellung nicht nutzbar (siehe auch Bundesinstitut für Bau‑, Stadt- und Raumforschung 2020, S. 16f). Das neue Gesetz lässt den Mietspiegelerstellern hier aber mehr Spielraum und nach § 14 gilt: Wird die ortsübliche Vergleichsmiete nach der Regressionsanalyse ermittelt, so sind wohnwertrelevante gesetzliche Merkmale daraufhin zu untersuchen, ob sie einen statistisch signifikanten Einfluss auf den Mietpreis haben mit dem Ziel, den Zusammenhang zwischen der Miethöhe und den gesetzlichen wohnwertrelevanten Merkmalen möglichst gut zu beschreiben. Außergesetzliche Merkmale können insbesondere zur Wahl des Regressionsmodells und bei der Bemessung von Spannen nach § 16 Absatz 3 herangezogen werden.

Diese gesetzliche Vorgabe lässt viel Spielraum, auch was die statistischen Implikationen anbetrifft. Malottki et al (2018) beschreiben ausführlich Notwendigkeit, Relevanz und Umsetzung der Berücksichtigung von außergesetzlichen Merkmalen bei der Erstellung von Mietspiegeln. Die statistischen Auswirkungen auf Mietspiegelmodelle werden dort nur kurz angesprochen. Wir greifen diesen Punkt weiter auf und diskutieren aus statistischer Sicht unterschiedliche Möglichkeiten der Berücksichtigung von außergesetzlichen Merkmalen in Regressionsmietspiegeln. Wir vergleichen anhand von realen Daten aus München die entsprechenden Konsequenzen in Bezug auf Verzerrung, Bestimmtheitsmaß und Vorhersagegüte. Wir betrachten darüber hinaus Aspekte der Modellselektion.

Der Artikel ist wie folgt gegliedert. Abschn. 2 gibt den theoretischen Rahmen und zeigt auf, welche Möglichkeiten es aus statistischer Sicht gibt außergesetzliche Merkmale zu berücksichtigen. Abschn. 3 betrachtet die Berücksichtigung von außergesetzlichen Merkmalen bei der Modellwahl und Abschn. 4 gibt eine abschließende Diskussion des Themas.

2 Mietspiegelmodelle

2.1 Gesetzliche und außergesetzliche Merkmale

Wir bezeichnen im folgenden mit \(y\) die Nettomiete pro Quadratmeter und mit \(x\) den Vektor der gesetzlichen Merkmale, also Wohnfläche, Lage, Ausstattung etc. Mit \(z\) notieren wir den Vektor der außergesetzlichen Merkmale, die unter anderem die Mietdauer oder der Vermietertyp sind. Wir betrachten hier der Einfachheit halber ein lineares Regressionsmodell, wobei Erweiterungen auf nicht-lineare Strukturen direkt möglich sind, in der Notation aber umständlich wirken, so dass wir darauf hier verzichten. Das vollständige lineare Modell, welches gesetzliche und außergesetzliche Merkmale enthält, ergibt sich damit zu

$$y=\beta_{0}+x\beta_{x}+z\beta_{z}+\epsilon.$$
(1)

Wir unterstellen nachfolgend, dass das Modell (1) das datengenerierende Modell ist. Das bedeutet, dass keine weiteren erklärenden Variablen verfügbar sind und die Reststreuung \(\epsilon\) unabhängig von den Einflussgrößen \(x\) und \(z\) ist. Basierend auf Daten \((y_{i},x_{i},z_{i})\) mit \(i=1,\ldots n\) kann nun der Kleinste-Quadrate-Schätzer (KQ-Schätzer) bzw. bei Annahme einer Normalverteilung für die Residuen der Maximum-Likelihood Schätzer (ML-Schätzer) bestimmt werden, der bekannterweise

$$\hat{\beta}=\left(({\bf X},{\bf Z})^{T}({\bf X},{\bf Z})\right)^{-1}\left(({\bf X},{\bf Z})^{T}{\bf y}\right)$$
(2)

ist. Dabei ist \({\bf y}=(y_{1},\ldots y_{n})^{T}\) und \(\bf{X}\) die Designmatrix mit Zeilen \((1,x_{i})\) und \(\bf{Z}\) entsprechend die Designmatrix mit Zeilen \(z_{i}\), wobei \(i=1,\ldots n\) der Beobachtungsindex ist. Die geschätzten Koeffizienten können nun für ein Mietspiegelmodell herangezogen werden, was wir nachfolgend als Mietspiegelmodell 0 bezeichnen wollen. Für eine Wohnung mit gesetzlichen Merkmalen \(x_{*}\) und außergesetzlichen Merkmalen \(z_{*}\) ergibt sich in diesem Modell die ortsübliche Vergleichsmiete zu

$$\hat{y}_{*(0)}=\hat{\beta}_{0}+x_{*}\hat{\beta}_{x}+z_{*}\hat{\beta}_{z}.$$
(3)

Das Modell kommt in der Praxis nicht zur Anwendung, da die ortsübliche Vergleichsmiete hier neben den gesetzlichen Merkmalen \(x\) auch außergesetzliche Merkmale \(z\) enthält, was im qualifizierten Mietspiegel aufgrund gesetzlicher Vorgaben nicht erlaubt ist. Modell (1) kann aber als „Benchmark“ dienen, sprich als das bestmögliche Modell betrachtet werden.

Es ist plausibel anzunehmen, dass in erhobenen Mietspiegeldaten gesetzlichen Merkmale \(x\) und außergesetzlichen Merkmale \(z\) miteinander korreliert sind. Art und Beschaffenheit des Fußbodenbelags einer Wohnung hängen vom Einzugsdatum und damit von der Mietdauer ab. Damit hängen Fußbodenbelag und Mietdauer zusammen. Ebenso sind Wohnungen, die über Genossenschafften vermietet werden, tendenziell einfacher ausgestattet als Wohnungen im gehobenen Segment. Das impliziert, dass Ausstattung mit dem Vermietertyp assoziiert ist. Diese Assoziationen können einen omitted variable Bias zur Folge habe (Wooldridge 2015). Bisherige Mietspiegelmodelle haben dabei die außergesetzlichen Merkmale gänzlich unberücksichtigt gelassen. Dies war gesetzlich in dieser Form vorgeschrieben, was aber explizite Konsequenzen für das resultierende Mietspiegelmodell hat. Konkret bedeutet die Nichtberücksichtigung von außergesetzlichen Merkmalen, dass man die Einflussgrößen \(z\) ignoriert und damit das vereinfachte Modell

$$y=\beta_{0}+x\beta_{x}+\tilde{\epsilon}$$
(4)

betrachtet, wobei \(\tilde{\epsilon}=z\beta_{z}+\epsilon\). Im Modell (4) ist das Residuum \(\tilde{\epsilon}\) nicht unabhängig von \(x\), sondern es gilt

$$\frac{\partial\tilde{\epsilon}}{\partial x}=\frac{\partial z}{\partial x}\beta_{z}.$$
(5)

Diese Korrelation wird bei der Schätzung der Parameter in Modell (4) ignoriert, sofern zum Beispiel ein Kleinste-Quadrate Schätzer (KQ) oder ein Maximum-Likelihood Schätzer (ML) von Modell (4) verfolgt wird. Hierbei wird Unkorreliertheit von den Residuen und den Kovariablen unterstellt. Der entsprechende Schätzer sei als \(\hat{\tilde{\beta}}_{x}\) bezeichnet. Er ist dabei nicht konsistent für \(\beta_{x}\) in Modell (1), sondern konsistent für

$$\tilde{\beta}_{x}=\beta_{x}+\underbrace{\left({\bf X}^{T}{\bf X}\right)^{-1}\left({\bf X}^{T}{\bf Z}\right)\beta_{z}}_{\text{Bias}}.$$
(6)

Man erkennt, dass die Schätzer im Modell (4) mit nur gesetzlichen Merkmalen verzerrt sind, wenn \(x\) und \(z\) korreliert sind. Der Bias ist dabei durch Gl. (6) explizit berechenbar.

Auch wenn der Schätzer \(\hat{\tilde{\beta}}\) verzerrt ist, so weist er eine Optimalität auf, weil sich die vorhergesagte Miete als bester linearer Prädiktor aus den gesetzlichen Merkmalen ergibt. Wir bezeichnen das Modell als Mietspiegelmodell 1 und die ortsübliche Vergleichsmiete für eine Wohnung mit Ausstattung \(x_{*}\) ergibt sich zu

$$\hat{y}_{*(1)}=\tilde{\beta}_{0}+x_{*}\tilde{\beta}_{x}.$$
(7)

Man beachte, dass Modell (7) ein klassisches Mietspiegelmodell ist und damit der Mehrzahl der auf dem Markt befindlichen Regressionsmietspiegeln entspricht.

Mit dem Mietspiegelreformgesetz erlaubt der Gesetzgeber erstmals, dass außergesetzliche Merkmale zur Wahl des Regressionsmodell herangezogen werden können (Bundesgesetzeblatt 2021). Eine Möglichkeit dies im Modellierungsschritt zu berücksichtigen ist, dass zunächst die außergesetzlichen Merkmale mitberücksichtigt werden, aber dann für die konkrete Prognose der ortsüblichen Miete vernachlässigt werden. Statistisch kann dies wie folgt formuliert werden. Das volle, datengenerierende Modell (1) wird mit allen verfügbaren Daten geschätzt. Für die Berechnung der ortsüblichen Vergleichsmiete einer Wohnung dürfen per gesetzlicher Vorgabe aber nur die gesetzlichen Merkmale herangezogen werden, d. h. nur die \(x_{*}\). Es müssen also Annahmen getroffen werden, wie bei der Prognose mit dem Term \(z_{*}\hat{\beta}_{z}\) aus dem geschätzten Modell (3) umgegangen wird. Für die Prognose nehmen wir an, dass die außergesetzlichen Merkmale \(z_{*}\) unbekannt sind. Statistischer Terminologie folgend kann man dies als ein Problem von fehlenden Daten (missing data) auffassen. Damit kann das geschätzte Modell (1) nicht direkt zur Vorhersage herangezogen werden, da die Kovariablen \(z_{*}\) unbekannt sind. Eine Lösung des Vorhersageproblems ist nun, den Wert \(z_{*}\) aus den Daten zu schätzen. Das einfachste Vorhersagemodell hierzu ist das arithmetische Mittel \(\bar{z}=\frac{1}{n}\sum_{i=1}^{n}z_{i}\) als Schätzer für die als unbekannt angenommen außergesetzlichen Merkmale heranzuziehen. In diesem Modell wird bei der Prognose einer konkreten Wohnung für alle außergesetzlichen Merkmale ein „durchschnittlicher“ Wert angenommen. Damit ergibt sich die ortsübliche Vergleichsmiete durch

$$\hat{y}_{*(2)}=\hat{\beta}_{0}+x_{*}\hat{\beta}_{x}+\bar{z}\hat{\beta}_{z}.$$
(8)

Dabei kann man \(\hat{\beta}_{0}\) und \(\bar{z}\hat{\beta}_{z}\) zum neuen Intercept \(\hat{\hat{\beta_{0}}}\) zusammenfassen. Numerisch identische Ergebnisse erhält man, indem man die geschätzten Werte \(\hat{\beta}_{x}\) nimmt, dann aber für das Modell noch einmal den Intercept entsprechend nachschätzt. Wir bezeichnen diesen Ansatz nachfolgend als Mietspiegelmodell 2. Dieser Ansatz ist mathematisch identisch mit dem in Malottki et al (2018) in Abschn. V.2. (Kontrolle der Merkmale) beschriebenen Verfahren. Durch die Verwendung von \(\bar{z}_{*}\) als Schätzwert des Populationsmittels der außergesetzlichen Merkmale \(z\) hat die empirische Verteilung der Werte \(z_{*}\) in der realisierten Stichprobe direkten Einfluss auf die vorhergesagten Werte der ortsüblichen Vergleichsmiete \(\hat{y}_{*(2)}\) als Schätzer für \(E(y_{*}\mid x_{*},z_{*})\). Weist die Stichprobe einen Bias bezüglich der außergesetzlichen Merkmalen \(z\) auf, so sind auch die vorhergesagten Werte der ortsüblichen Vergleichsmiete verzerrt. Voraussetzung für die Anwendung des Mietspiegelmodells 2 ist also das Ziehen einer unverzerrten Stichprobe.

Die Sichtweise, dass wir für eine Prognose die außergesetzlichen Merkmale als fehlende Werte betrachten und diese durch den Mittelwert schätzen, führt zu einem weiteren Ansatz. Klarerweise ist der Mittelwert die einfachste Form, um fehlende Werte zu ersetzen. Man kann aber auch versuchen den als unbekannt angenommenen Wert \(z\) aus den verfügbaren Daten zu schätzen, ähnlich wie es im Bereich der multiplen Imputation verfolgt wird. Das bedeutet, dass wir ein Vorhersagemodell von \(z\) aus den Variablen \(x\) und im Prinzip auch aus \(y\) bestimmen müssen. Wir vernachläsigen dabei die Werte von \(y\) und unterstellen ein (generalisiertes) Regressionsmodell in der Form

$$E(z\mid x)=h(\eta_{x})$$
(9)

wobei \(\eta_{x}\) ein linearer Prädiktor und \(h()\) als Linkfunktion verstanden werden muss, so dass der Wertebereich von beiden Seiten der Gleichung identisch ist. Ist \(z\) eine binäre Größe, so bietet sich zum Beispiel der logit-Link an. Man beachte, dass \(z\) üblicherweise multidimensional ist und damit Gl. (9) elementweise gilt. Der lineare Prädikor kann nun beliebige Strukturen annehmen, wobei wir hier der Einfachheit halber nur lineare Abhängigkeiten unterstellen. Das bedeutet konkret, dass wir für das Modell (9) unterstellen:

$$\eta_{x}=\alpha_{0}+x\alpha_{x}.$$
(10)

Basierend auf den Daten \((x_{i},z_{i})\), \(i=1,\ldots n\) und Modell (9) (bei Unterstellung einer i.i.d. Annahme) können die Koeffizienten \(\alpha\) mittels der Maximum-Likelihood-Methode geschätzt werden und die resultierenden Schätzer bezeichnen wir als \(\hat{\alpha}\). Für eine Wohnung mit Ausstattungsmerkmalen \(x_{*}\) kann damit der erwartete Wert von \(z\) bestimmt werden durch \(\hat{z}_{*}:=h(\hat{\alpha}_{0}+x_{*}\hat{\alpha}_{z})\). Dieser Wert kann wiederum in das Mietspiegelmodell 0 eingesetzt werden und es ergibt sich die ortsübliche Vergleichsmiete durch die Prognose

$$\hat{y}_{*(3)}=\hat{\beta}_{0}+x_{*}\hat{\beta}_{x}+\hat{z}_{*}\hat{\beta}_{z}.$$
(11)

Wir bezeichnen dieses Modell als Mietspiegelmodell 3. Dabei berücksichtigen die Mietspiegelmodelle 2 und 3 die außergesetzlichen Merkmale in der Modellierungsphase, nicht aber im konkreten Mietspiegelmodell zur Prognose der ortsüblichen Vergleichsmiete. Das Modell 3 nutzt die außergesetzlichen Merkmale nicht bei der Berechnung der ortsüblichen Vergleichsmiete. Sie fließen aber indirekt über die multiple Imputation ein, indem für diese Wohnung aus den zugehörigen gesetzlichen Merkmalen \(x_{*}\) ein „üblicher“ Einfluss der \(z_{*}\) geschätzt wird. Über diesen indirekten Einfluss hat das Modell 3 den Vorteil, dass das Auftreten von bestimmten Wertekonstellationen von gesetzlichen und außergestzlichen Merkmalen tendenziell mitberücksichtigt wird (siehe auch Malottki et al 2018, S. 13). So werden z. B. durch die Vorhersage der außergesetzlichen Merkmale für Neubauwohnungen tendenziell kürzere Mietdauern vorhergesagt.

Da wir uns in diesem Artikel auf die statistischen Möglichkeiten und Auswirkungen der Berücksichtigung außergesetzlicher Merkmale beschränken wollen, ist eine juristische Einordnung und Prüfung aller Ansätze vor dem Einsatz in der Praxis notwendig.

2.2 Empirische Evaluation der Mietspiegelmodelle

Im nachfolgenden Abschnitt wollen wir anhand von konkreten Daten des Mietspiegels für München den Effekt der Berücksichtigung von außergesetzlichen Merkmalen quantifizieren. Die Mietspiegelmodelle 1 bis 3 werden verglichen mit dem Mietspiegelmodell 0, also dem datengenerierenden Modell aus Gl. (1), das als eine Art Benchmark dient. Betrachtet werden einerseits die Unterschiede der Vorhersagegüte der Nettokaltmieten je Quadratmeter \(y\) und andererseits der Effekt auf die Koeffizientenschätzer \(\hat{\beta}_{x}\), also die Wirkung auf die gesetzlichen Wohnwertmerkmale.

Für unsere Analyse nutzen wir Daten aus der Erhebung zum Mietspiegel für München 2021. Als außergesetzliche Merkmale dienen die Mietdauer \(z_{1}\), in Form der Laufzeit des Mietvertrages in Monaten und der Vermietertyp \(z_{2}\), als binäre Variable mit \(z_{2}=1\), falls der Vermietertyp eine Genossenschaft oder städtische Gesellschaft ist und \(z_{2}=0\) sonst. Die Mietdauer \(z_{1}\) wird als „glatter“, nicht-parametrischer Effekt im Regressionsmodell aufgenommen. Ein außergesetzliches Merkmal mit zweifelsfrei hohem Einfluss auf die Miethöhe ist die Unterscheidung zwischen neu abgeschlossenen Mietverträgen sowie Wohnungen mit geänderter Bestandsmiete, das sich direkt aus der gesetzlichen Definition zur ortsüblichen Vergleichsmiete (§ 558 (2) BGB) ergibt. Diese Unterscheidung weist aber eine starke Assoziation mit der Mietdauer auf, da laut § 558 (2) BGB die ortsübliche Vergleichsmiete u. a. aus den Neuverträgen der letzten sechs Jahre gebildet wird. Eine Berücksichtigung neben der Mietdauer enthält nur wenig zusätzliche Information und eine Aufnahme in das Regressionsmodell ist nicht sinnvoll.

Insgesamt stehen in dem Datensatz 1975 Beobachtungen zur Verfügung, die Informationen über die gesetzlichen Merkmale \(x\) und die außergesetzlichen Merkmale \(z\) enthalten. Die signifikanten Wohnwertmerkmale des Mietspiegels für München aus dem Jahr 2019 bilden die gesetzliche Merkmale \(x\), welche in Tab. 1 aufgeführt sind. Detailliertere Definitionen der Merkmale sind in der Dokumentation zum Mietspiegel für München 2019 (Windmann und Kauermann 2019, S. 30ff) zu finden. Für die nominal skalierten Variablen wurde eine Dummy-Codierung verwendet. Die jeweilige Referenzkategorie ist kursiv dargestellt. Die Merkmale Wohnfläche und Baujahr werden als „glatte“ nicht-parametrische Effekte in das Modell aufgenommen. Das zu schätzende Regressionsmodell mit gesetzlichen und außergesetzlichen Merkmalen hat die Form eines generalisierten additiven Modells (Wood 2017)

$$\begin{aligned}y=\beta_{0}+f(WFl)+g( \textit{BJ})+\beta_{1}X_{1}+\beta_{2}X_{2}+\ldots+\beta_{17}X_{17}+h(z_{1})+z_{2}\beta_{z}+\epsilon\end{aligned}$$
(12)

wobei \(f()\), \(g()\) und \(h()\) jeweils „glatte“, sprich stetige bzw. differenzierbare Funktionen sind, die aus des Daten geschätzt werden. Das Modell lässt sich mit verfügbarer Software schätzen (Wood et al 2016).

Tab. 1 Gesetzliche Wohnwertmerkmale im Modell zum Mietspiegel für München 2019

Eine Modellwahl findet bei den betrachteten Mietspiegelmodellen 1 bis 3 an dieser Stelle nicht statt, so dass in allen Modellen dieselben Variablen \(x\) und \(z\) herangezogen werden. Mögliche Auswirkungen auf die Modellwahl betrachten wir im nachfolgenden Abschnitt. Zur Beurteilung des Einflusses außergesetzlicher Merkmale auf die vorgeschlagenen Mietspiegelmodelle brachten wir drei Größen:

  1. 1.

    Bias (6) der gesetzlichen Merkmale,

  2. 2.

    Bestimmtheitsmaß \(R^{2}\) für die Modelle sowie die resultierende Residualvarianz und schließlich

  3. 3.

    die Vorhersagegenauigkeit basierend auf einer Kreuzvalidierung.

Es sei drauf hingewiesen, dass weder Bestimmtheitsmaß noch Varianz der kreuzvalidierten Residuen (Vorhersagegenauigkeit) ein Güte- oder Qualitätsmaß für Mietspiegel darstellen. Diese Maßzahlen dienen hier nur dazu die Folgen der drei Ansätze zur Berücksichtigung außergesetzlicher Merkmale aufzuzeigen. Tab. 2 zeigt für die parametrischen Terme der Modelle 0 und 1 die geschätzten Koeffizienten mit den zugehörigen Standardabweichungen. Abb. 1 zeigt den geschätzten Effekt der Mietdauer \(\hat{h}(z_{1})\) im Modell 0.

Abb. 1
figure 1

Geschätzter Effekt \(\hat{h}(z_{1})\) im Modell 0

Bias Abb. 2 zeigt die geschätzten Koeffizienten \(\hat{\beta}_{x}\) der unterschiedlichen Ansätze der Mietspiegelmodelle 1 bis 3 auf die Höhe der Zu- und Abschläge der gesetzlichen Wohnwertmerkmale. Dabei ist es ausreichend nur die Koeffizienten \(\hat{\tilde{\beta}}_{x}\) des Mietspiegelmodells 1 (in Abb. 2 mit ‘1’ dargestellt) mit den Koeffizienten \(\hat{\beta}_{x}\) der Mietspiegelmodelle 2, 3 und dem datengenerierenden Modell 0 (in Abb. 2 mit ‘0’ dargestellt) zu vergleichen, da für die letzten drei Modelle die Schätzungen der Koeffizienten \(\hat{\beta}_{x}\) identisch sind. Abweichungen zwischen \(\hat{\beta}_{x}\) und \(\hat{\tilde{\beta}}_{x}\) stellen eine Schätzung des Bias in Gl. (6) dar. Abb. 3 und 4 zeigen die geschätzten „glatten“ nicht-parametrischen Effekte \(\hat{f}( \textit{WFL})\) und \(\hat{g}( \textit{BJ})\) für die Variablen Wohnfläche und Baujahr.

Tab. 2 Geschätzte Koeffizienten und Standardabweichungen im Mietspiegelmodell 0 und 1
Abb. 2
figure 2

Geschätzte Koeffizienten \(\hat{\beta}_{x}\) des datengenerierenden Modells (‘0’) und \(\hat{\tilde{\beta}}_{x}\) des Mietspiegelmodells 1 (‘1’)

Abb. 3
figure 3

Geschätzter „glatter“ nicht-parametrischer Effekt der Wohnfläche

Abb. 4
figure 4

Geschätzter „glatter“ nicht-parametrischer Effekt des Baujahrs

Es zeigt sich, dass für einige Wohnwertmerkmale die Berücksichtigung der außergesetzlichen Merkmalen nur zu geringen Unterschieden führt, so z. B. bei der Wohnlage und zentraler Lage sowie Bad- und Küchenausstattung. Deutliche Unterschiede gibt es hingegen bei einigen Gebäudetypen (Wohnblock, Altbau Typ B) sowie Qualität und Alter des Fußbodenbelags. Für diese Merkmale ist also eine Abhängigkeit zwischen den außergesetzlichen Merkmalen \(z\) und gesetzlichen Merkmalen \(x\) vorhanden. Diese Wohnwertmerkmale weisen im Mietspiegelmodell 1, also ohne Berücksichtigung außergesetzlicher Merkmale, betragsmäßig größere Werte der Koeffizienten auf, da sie nicht nur einen „kausalen“ Effekt von \(x\) sondern auch die Effekte der außergesetzlichen Merkmale \(z\) beinhalten. Insbesondere für den Bodenbelag ist dies durchaus erklärbar. Ein Wechsel bzw. eine Erneuerung des Bodenbelags findet bei einer Mietwohnung üblicherweise bei Mieterwechsel statt, was wiederum mit einem neuen Mietvertrag und damit einer kürzeren Mietdauer einhergeht. Im Mietspiegelmodell 1 ohne die außergesetzlichen Merkmale wird der Effekt vom Bodenbelag überschätzt, da ein direkter Einfluss der Mietdauer unberücksichtigt bleibt.

Die genannten Abhängigkeiten zwischen den gesetzlichen Merkmalen \(x\) und den außergesetzlichen Merkmalen \(z\) zeigen sich auch im Assoziationsmaß Cramers‘V, welches in Abb. 5 gezeigt wird. Dafür wurden die stetigen Merkmale Wohnfläche, Baujahr und Mietdauer kategorisiert. Aus der Grafik erkennt man, dass die Mietdauer \(z_{1}\) starke Abhängigkeiten zu den Variablen Art des Fußbodens und neuer Boden hat. Bei dem Vermietertyp \(z_{2}\) „Genossenschaft, städtischer Vermieter“ können hohe Abhängigkeiten zum Haus- und Gebäudetyp sowie dem Baujahr beobachtet werden. Die gesetzlichen Merkmale Art des Fußbodens, neuer Boden, Haustyp (konkret Wohnblock) und Gebäudetyp (konkret Altbau Typ B) haben, wie in Abb. 2 gezeigt, einen hohen Bias der geschätzten Koeffizienten \(\hat{\beta}_{x}\) im Mietspiegelmodell 1.

Bestimmtheitsmaß \(R^{2}\) Tab. 3 zeigt die Werte des Bestimmtheitsmaßes \(R^{2}\) und den Anteil des Bestimmtheitsmaßes \(R^{2}_{i}/R^{2}_{0}\) des Mietspiegelmodells \(i=1,2,3\) am datengenerierenden Modell 0. Darüber hinaus ist die geschätzte Standardabweichung der Residuen für die vier Modelle angegeben. Aus der Schätzung des datengenerierenden Modells 0 zeigt sich, dass die verwendeten gesetzlichen Merkmale \(x\) und die außergesetzlichen Merkmale \(z\) zusammen etwa \(53\%\) der Streuung der Nettomieten erklären können. Die außergesetzlichen Merkmale Mietdauer und Vermietertyp erklären einen nicht unerheblichen Teil der Heterogenität der Nettomieten. Das zeigt sich durch die niedrigeren \(R^{2}\)-Werte der Modelle 1 bis 3. Den niedrigsten Wert hat dabei das Mietspiegelmodell 2, also das Modell, das zwar sowohl aus gesetzlichen als auch außergesetzlichen Merkmalen geschätzt wird, bei dem aber dann nur der Achsenabschnitt neu bestimmt wird. Werden hingegen die außergesetzlichen Merkmale durch ein eigenes Modell wie in (9) skizziert durch die gesetzlichen Merkmale geschätzt, so kann das Bestimmtheitsmaß im Vergleich zum üblichen Mietspiegelmodell 1 deutlich gesteigert werden.

Abb. 5
figure 5

Cramers’V der gesetzlichen und außergesetzlichen Merkmale \(x\) und \(z\)

Tab. 3 Bestimmtheitsmaß \(R^{2}\), Standardabweichung \(\epsilon\) der geschätzten Residuen und Standardabweichung \(\tilde{\epsilon}\) aus einer Kreuzvalidierung für das datengenerierende Modell 0 und die Mietspiegelmodelle 1 bis 3

Der \(R^{2}\)-Wert des datengenerierenden Modells 0 dient als Benchmark für den Vergleich der Ansätze der Mietspiegelmodelle 1 bis 3. Es zeigt sich, dass mit dem klassischen Ansatz im Mietspiegelmodell 1 \(74\%\) der Streuung im Vergleich zum Benchmarkmodell erklärt werden können. Im Mietspiegelmodell 2 sind es mit \(38\%\) weniger als die Hälfte des Benchmarkmodells. Das bedeutet, dass der kausale Einfluss der gesetzlichen Merkmale nur einen geringen Teil der Streuung der Nettomieten erklären kann. Das Mietspiegelmodell 3, in dem die außergesetzlichen Merkmale mittels der gesetzlichen Merkmale imputiert werden, erklärt \(89\%\) des Benchmarkmodells. Der Informationsverlust durch das Imputieren ist hier eher gering. Die Streuung der Residuen in Form der Standardabweichungen geben ein ähnliches Bild wieder.

Vorhersagegüte durch Kreuzvalidierung Die obigen Analysen betreffen „in sample“ Größen, also Güteaussagen zum Datensatz, der zum Schätzen (Lernen) des Modells benutzt wurde. Wir erweitern dies nun auf „out of sample“ Analysen und betrachten die Varianz der kreuzvalidierten Residuen, die sich aus einer Leave-One-Out-Analyse ergeben. Sei \(\hat{y}_{i}^{-i}\) die Vorhersage der Nettomiete für die \(i\)-te Wohnung in der Stichprobe, wobei diese \(i\)-te Wohnung bei der Modellschätzung nicht berücksichtigt wird, dann sind die kreuzvalidierten Residuen \(\tilde{\epsilon}_{i}=y_{i}-\hat{y}_{i}^{-i}\), \((i=1,\ldots,n)\). Die so definierten kreuzvalidierten Residuen werden auch im Mietspiegel für München (Windmann und Kauermann 2019, S. 57) zur Berechnung der Spannen verwendet. Tab. 4 zeigt für die Mietspiegelmodelle 1 bis 3 und das Benchmarkmodell 0 die Standardabweichung sowie das \(1/6\) und \(5/6\)-Quantil, was in Mietspiegeln der üblichen \(2/3\)-Spanne entspricht.

Tab. 4 Standardabweichung sowie \(1/6\) und \(5/6\)-Quantile der kreuzvalidierten Residuen \(\tilde{\epsilon}\)

Die Ergebnisse sind vergleichbar mit denen des Bestimmtheitsmaßes \(R^{2}\) aus Tab. 3. Das Benchmarkmodell 0 zeigt, wie auch zu erwarten war, die beste Vorhersagegüte. Die Modelle 1 und 3 weisen eine ähnlich hohe Streuung der kreuzvalidierten Residuen auf und das Modell 2 die stärkste Streuung. Diese Reihenfolge zeigt sich auch in der Spannweite der \(1/6\) und \(5/6\)-Quantile. In den Modellen 0, 1 und 2 weisen die kreuzvalidierten Residuen eine symmetrische Verteilung auf. Im Modell 3 dagegen weisen die positiven Residuen eine größere Spannbreite auf als die negativen.

Zusammenfassend kann man festhalten, dass die Berücksichtigung außergesetzlicher Merkmale bei der Mietspiegelerstellung je nach Ansatz einen Einfluss auf die Vorhersagegüte und auch den Bias der geschätzten Effekte der gesetzlichen Parameter hat. Für einige Wohnwertmerkmale \(x\) ändert die Berücksichtigung der außergesetzlichen Merkmale demnach die Wirkung auf die ortsübliche Vergleichsmiete, wobei das Nicht-Berücksichtigen zu einer stärkeren Wirkung der Wohnwertmerkmale \(x\) führt. Will man außergesetzliche Merkmale berücksichtigen, so zeigt das Modell 2 die schlechtesten statistischen Eigenschaften und es sollte Modell 3 bevorzugt werden. Inhaltlich ist das nachvollziehbar, da Modell 2 die unbekannten außergesetzlichen Merkmale durch das arithmetische Mittel ersetzt, wohingegen Modell 3 das Regressionsmodell (9) benutzt. Der Vorteil von Modell 3 ist darüber hinaus, dass es die Effekte \(\beta_{x}\) unverzerrt schätzt, wohingegen Modell 1 einen Bias aufweist, wie in Abb. 2 und 4 zu sehen ist.

3 Modellwahl

Im Abschn. 2 haben wir den Einfluss der außergesetzlichen Merkmale auf die Vorhersagegüte und den Bias der geschätzten Koeffizienten der gesetzlichen Wohnwertmerkmale betrachtet. In diesem Abschnitt wird der Einfluss verschiedener Ansätze der Modellwahl auf die in den Regressionsmodellen enthaltenen Merkmale und die Vorhersagegüte untersucht. Wir verwenden wieder die Daten des Mietspiegels für München 2021 und ziehen als Benchmarkmodell das Mietspiegelmodell aus Gl. (3) heran.

Bei der Modellwahl, also Wahl der Parameter, werden nur Variablen in das Regressionsmodell aufgenommen, die zum \(5\%\)-Niveau signifikant sind. Die Ansätze zur Modellwahl bestehen aus zwei Teilen. Zum einen untersuchen wir, ob bei der Wahl der signifikanten gesetzlichen Parameter \(x\) außergesetzliche Merkmale \(z\) im Regressionsmodell enthalten sind und zum anderen, ob bei der Schätzung der Koeffizienten der gesetzlichen Parameter \(\hat{\beta}_{x}\) außergesetzliche Parameter \(z\) im Regressionsmodell enthalten sind, d. h. ob bei der Parameterwahl bzw. der Koeffizientenschätzung das Mietspiegelmodell 1 (ohne außergesetzliche Merkmale \(z\)) oder Mietspiegelmodell 2 (mit außergesetzlichen Merkmalen \(z\)) angewandt wird. Tab. 5 zeigt das Bestimmtheitsmaß \(R^{2}\) und die Standardabweichungen der Residuen \(\epsilon\) für die vier möglichen Ansätze der Modellwahl.

Tab. 5 Bestimtheitsmaß \(R^{2}\) und Standardabweichung der Residuen \(sd(\epsilon)\) als Maß für Vorhersagegüte bei den vier unterschiedlichen Ansätzen der Modellwahl

Aus den \(R^{2}\)-Werten und der Standardabweichung der Residuen zeigt sich, dass bei der Modellwahl, ob mit oder ohne gesetzliche Merkmale \(z\), fast keine Unterschiede in der Vorhersagegüte entstehen. Dies deutet daraufhin, dass die im Mietspiegel für München enthaltenen gesetzlichen Merkmale \(x\) in diesem Fall nicht weiter reduziert werden können.

4 Abschließende Bemerkungen

In diesem Artikel haben wir gezeigt, wie außergesetzliche Merkmale in der Modellierung von Regressionsmietspiegeln berücksichtigt werden können. Anhand einer empirischen Analyse mittels Daten aus dem Mietspiegel für München haben wir die Folgen untersucht, die für die Vorhersagegeüte und den Bias bei der Schätzung der Koeffizienten zu erwarten sind.

Die Analyse zeigt, dass der Bias für gesetzliche Wohnwertmerkmale, die eine starke Assoziation zu außergesetzlichen Merkmalen haben, hoch ist. Dies hat zur Folge, dass die Vorhersagegüte im Mietspiegelmodell 2, das bei der Prädiktion den Einfluss außergesetzlicher Merkmale außen vor lässt, deutlich abnimmt. Im Umkehrschluss bedeutet dies, dass die außergestzlichen Merkmale Mietdauer und Vermietertyp hier einen deutlichen Teil der Streuung der Mieten erklären. Die beste Prognosegüte weist das Modell 3 auf. Dieses Modell stellt insoweit einen Kompromiss dar, da es bei der Berechnung der ortsüblichen Vergleichsmiete nur gesetzliche Merkmale nutzt aber gleichzeitig auch den Informationsgehalt der außergesetzlichen durch ein Imputationsmodell berücksichtigt. Allerdings weist dieses Modell durch den zusätzlichen Imputationsschritt in der Anwendung eine hohe Komplexität auf und es bleibt fraglich in wieweit ein Einsatz in der Praxis möglich und sinnvoll ist. Da wir in diesem Artikel hauptsächlich die statistischen Aspekte und Folgen betrachten wollen, empfiehlt sich eine juristische Prüfung vor Einsatz in der Praxis.

Die Berücksichtigung außergesetzlicher Merkmale bei der Modellwahl führte nur zu geringen Änderungen der signifikanten Merkmale im abschließenden Modell, was darauf schließen lässt, dass fast alle Merkmale in den Daten auch einen kausalen Einfluss auf die Höhe der Mieten haben.

Subsumierend lässt sich festhalten, dass die zusätzlichen Freiheiten, die der Gesetzgeber geschaffen hat, durchaus einen großen Einfluss auf die geschätzten Koeffizienten und folglich auch auf die Prognosefähigkeit der ortsüblichen Vergleichsmiete haben. Eine generelle statistische Empfehlung, in welcher Form die außergesetzlichen Merkmale genutzt werden sollen, kann kaum gegeben werden. Das Modell 3 ist auf Basis der statistischen Parameter klarer Favorit, es lässt aber außergesetzliche Merkmale auf Umwegen durch Imputation im finalen Modell zu und ist in der Anwendung komplexer. Insgesamt scheint es daher aus unserer Sicht sinnvoll, dass der Gesetzgeber hier nachschärft und klarere Angaben macht, wie (und ob überhaupt) außergesetzliche Merkmale genutzt werden sollen.