Abstract
This paper surveys the area of biological data integration and data warehousing, which has become a major focus of the data integration research field in the last few decades. The challenges in biological data integration are caused by several factors such as the variety and amount of available data, the heterogeneity of the data in different sources, and the autonomy and different capabilities of the sources. This paper gives insight into a small selection of important biological databases and the problems in biological data integration. We would like to focus on data warehouses that have become a popular approach in bioinformatics and life sciences. We will also introduce major existing integration systems that have been developed such as SRS, DiscoveryLink, BioWarehouse and ONDEX. Finally, this paper presents an in-house data warehouse approach for biological data.
Zusammenfassung
Dieser Artikel soll einen Überblick über den Bereich der biologischen Datenintegration und Data Warehouses geben, welche in den letzten Jahren immer mehr in den Fokus im Feld der Datenintegration gerückt ist. Die Herausforderungen in der biologischen Datenintegration werden durch unterschiedliche Faktoren verursacht wie z. B. Vielseitigkeit und Menge der verfügbaren Daten, Heterogenität der verschiedenen Datenquellen, sowie Autonomie und Einsatzmöglichkeiten der Datenquellen. Dieser Artikel soll eine Einsicht in eine kleine Auswahl von wichtigen molekularbiologischen Datenquellen geben und in Probleme der biologischen Datenintegration. Fokussieren wollen wir uns dabei auf den Data Warehouse Ansatz, der in den Lebenswissenschaften und in der Bioinformatik weit verbreitet ist. Wir werden die wichtigsten Integrationssysteme wie SRS, DiscoveryLink, BioWarehouse und ONDEX vorstellen. Abschließend präsentieren wir unser eigenes entwickeltes Data Warehouse System für molekularbiologische Daten.
© by Oldenbourg Wissenschaftsverlag, Bielefeld, Germany