Inhalte
Maschinelles Lernen im Bereich Gebäudedokumentation
Maschinelles Lernen im Bereich Gebäudedokumentation
Grundlagen zur Informationsextraktion für Energieeffizienz- und Lebenszyklusanalysen (ML-BAU-DOK)
10.08.18.7-20.26
04.2021
01.2023
abgeschlossen mit Bericht
Ergebnisse

Projektbeschreibung
In ML-BAU-DOK werden die methodischen Grundlagen entwickelt, um aus analogen oder digitalen Dokumenten relevante Informationen für die Anwendungsbereiche Energieeffizienz- und Lebenszyklusanalysen automatisiert zu extrahieren und aufzubereiten.
ML-BAU-DOK folgt dabei vier Schritten: Regeln der Digitalisierung, Segmentierung von Massendokumenten, Priorisierung von Dokumenten und abschließend Klassifizierung.
Zunächst wird die effiziente Digitalisierung großer Dokumentenmengen (Massenscan) unter Beachtung der wichtigsten Regeln beschrieben. Hierzu wurde Gebäudedokumentation im Rahmen des Projekts digitalisiert. Folglich wird aufgezeigt, wie Massenscans automatisiert durch Algorithmen in Einzeldokumente separiert werden können. Um die Dokumente anschließend klassifizieren zu können, werden Methoden zur anwendungsfallbezogenen Definition von Dokumentenklassen beschrieben. Dadurch können für unterschiedliche Anwendungsbereiche die erforderlichen Schlüsseldokumente auf Basis der Schlüsselinformationen identifiziert und Gebäudedokumentation hinsichtlich ihrer Eignung für diverse Anwendungsbereiche bewertet werden. Hierbei werden Kriterien der Datenqualität und Maschinenlesbarkeit als Voraussetzungen für Maschinelles Lernen zugrunde gelegt, die auf alle denkbaren Anwendungsbereiche übertragen werden können. Die künftige automatisierte Klassifizierung der Dokumente wird durch eigens entwickelte Algorithmen ermöglicht, die open-source zugänglich sind.
Ergebnisse
ML-BAU-DOK umfasst Regeln und Methoden für die Digitalisierung von Dokumenten des Immobilienmanagements. Zunächst wurde der typische Prozess einer Dokumentendigitalisierung im Massenscanverfahren hergeleitet. Für die Bereitstellung der Massenscans als Einzeldokumente wurde ein Segmentierungsalgorithmus geschrieben, der zusammenhängende Dokumente erkennt und mit einer Trennungswahrscheinlichkeit von 40 % automatisiert in Einzeldokumente trennt. Als Grundlage der Informationsextraktion dienen vorab klassifizierte Dokumente, bei denen eine hohe Datenqualität sichergestellt ist. Hierzu wurden zwei Methoden (Scoring-Modell & Active-Learning-Modell) beschrieben, nach denen Dokumente hinsichtlich ihrer Datenqualität und Maschinenlesbarkeit bewertet werden. Es konnte eine Satzzeichen- und Worterkennungsquote von mehr als 90 % erzielt werden. Zudem wurden hinsichtlich Datenqualität die Dokumentenklassen für die Anwendungsfälle Energieeffizienz- und Lebenszyklusanalyse auf 18 entscheidende Dokumentenklassen reduziert. Abschließend wurden die Dokumente als Grundlage für die Informationsextraktion Dokumentenklassen zugeordnet. Unter Anwendung der Dokumentenklassen nach Mueller (2023) konnte bei strukturierten und inhaltsähnlichen Dokumenten eine Klassifizierungsquote von 100 % erreicht werden. ML-BAU-DOK erzeugt ein System, um aus massenhaften Papierdokumenten automatisiert digitale, getrennte, sortierte und abgelegte Dokumente zu generieren. Hieraus können klassenspezifisch Informationen extrahiert werden. Dies bildet die Grundlage für zukünftige ML-basierte Dokumentenauswertungen.
Projektbeteiligte | |
---|---|
Antragsteller/in : |
RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau Gottlieb-Daimler-Straße 47 67663 Kaiserslautern |
Federführende/r Forscher/in (alternativ Sprecher/in) : |
RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau Prof. Dr. Björn-Martin Kurzrock Paul-Ehrlich-Str. 14 67663 Kaiserslautern
Jonathan Rothenbusch Jonathan.rothenbusch@bauing.uni-kl.de Paul-Ehrlich-Str. 14 67663 Kaiserslautern
Konstantin Schütz konstantin.schuetz@bauing.uni-kl.de Paul-Ehrlich-Str. 14 67663 Kaiserslautern
Feibai Huang Paul-Ehrlich-Str. 14 67663 Kaiserslautern |
Fachbetreuer/in im BBSR : |
Anne Bauer, WB 3 |
Eckdaten | |
---|---|
Schlagworte zum Projekt : | Dokumentensegmentierung, Dokumentenklassifizierung, Informationsextraktion, Massenscan, Convolutional Neural Network, Clustering, Maschinelles Lernen, Gebäudedokumentation, Dokumentenmanagement, Dokumentenmanagementsysteme, Lebenszyklusanalysen, Energieeffizienzanalysen |
Einordnung in Zukunft Bau : | Publikation BBSR, Forschungsförderung, Immobilienwirtschaft, Ökobilanzierung/ Lebenszyklusanalyse, BIM/ digitale Planungsprozesse, Bestandsgebäude, Forschungsbericht |
Forschungskategorie nach EU : | Grundlagenforschung |
Art des Unternehmens : | Einrichtung für Forschung und Wissensverbreitung |
Bundesförderung in EUR : | 164.808,46 |
Projektetage der Bauforschung | ||
---|---|---|
Projektvorstellung 1 | 10.06.2021 | Mehr |
Projektvorstellung 2 | 21.06.2022 |