Maschinelles Lernen im Bereich Gebäudedokumentation


Projektnummer
10.08.18.7-20.26
Projektbeginn
04.2021
Projektende
01.2023
Projektstatus
abgeschlossen mit Bericht

Ergebnisse

Gebäude - Dokumentation - Daten │Digitalisieren - Klassifizieren - Priorisieren - Extrahieren; Quelle: TUK

Projektbeschreibung

In ML-BAU-DOK werden die methodischen Grundlagen entwickelt, um aus analogen oder digitalen Dokumenten relevante Informationen für die Anwendungsbereiche Energieeffizienz- und Lebenszyklusanalysen automatisiert zu extrahieren und aufzubereiten.
ML-BAU-DOK folgt dabei vier Schritten: Regeln der Digitalisierung, Segmentierung von Massendokumenten, Priorisierung von Dokumenten und abschließend Klassifizierung.
Zunächst wird die effiziente Digitalisierung großer Dokumentenmengen (Massenscan) unter Beachtung der wichtigsten Regeln beschrieben. Hierzu wurde Gebäudedokumentation im Rahmen des Projekts digitalisiert. Folglich wird aufgezeigt, wie Massenscans automatisiert durch Algorithmen in Einzeldokumente separiert werden können. Um die Dokumente anschließend klassifizieren zu können, werden Methoden zur anwendungsfallbezogenen Definition von Dokumentenklassen beschrieben. Dadurch können für unterschiedliche Anwendungsbereiche die erforderlichen Schlüsseldokumente auf Basis der Schlüsselinformationen identifiziert und Gebäudedokumentation hinsichtlich ihrer Eignung für diverse Anwendungsbereiche bewertet werden. Hierbei werden Kriterien der Datenqualität und Maschinenlesbarkeit als Voraussetzungen für Maschinelles Lernen zugrunde gelegt, die auf alle denkbaren Anwendungsbereiche übertragen werden können. Die künftige automatisierte Klassifizierung der Dokumente wird durch eigens entwickelte Algorithmen ermöglicht, die open-source zugänglich sind.

 

Ergebnisse

ML-BAU-DOK umfasst Regeln und Methoden für die Digitalisierung von Dokumenten des Immobilienmanagements. Zunächst wurde der typische Prozess einer Dokumentendigitalisierung im Massenscanverfahren hergeleitet. Für die Bereitstellung der Massenscans als Einzeldokumente wurde ein Segmentierungsalgorithmus geschrieben, der zusammenhängende Dokumente erkennt und mit einer Trennungswahrscheinlichkeit von 40 % automatisiert in Einzeldokumente trennt. Als Grundlage der Informationsextraktion dienen vorab klassifizierte Dokumente, bei denen eine hohe Datenqualität sichergestellt ist. Hierzu wurden zwei Methoden (Scoring-Modell & Active-Learning-Modell) beschrieben, nach denen Dokumente hinsichtlich ihrer Datenqualität und Maschinenlesbarkeit bewertet werden. Es konnte eine Satzzeichen- und Worterkennungsquote von mehr als 90 % erzielt werden. Zudem wurden hinsichtlich Datenqualität die Dokumentenklassen für die Anwendungsfälle Energieeffizienz- und Lebenszyklusanalyse auf 18 entscheidende Dokumentenklassen reduziert. Abschließend wurden die Dokumente als Grundlage für die Informationsextraktion Dokumentenklassen zugeordnet. Unter Anwendung der Dokumentenklassen nach Mueller (2023) konnte bei strukturierten und inhaltsähnlichen Dokumenten eine Klassifizierungsquote von 100 % erreicht werden. ML-BAU-DOK erzeugt ein System, um aus massenhaften Papierdokumenten automatisiert digitale, getrennte, sortierte und abgelegte Dokumente zu generieren. Hieraus können klassenspezifisch Informationen extrahiert werden. Dies bildet die Grundlage für zukünftige ML-basierte Dokumentenauswertungen.

Projektbeteiligte
Antragsteller/in :

RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau

Gottlieb-Daimler-Straße 47

67663 Kaiserslautern

Federführende/r Forscher/in (alternativ Sprecher/in) :

RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau

Prof. Dr. Björn-Martin Kurzrock

bjoern.kurzrock@rptu.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

 

Jonathan Rothenbusch

Jonathan.rothenbusch@bauing.uni-kl.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

 

Konstantin Schütz

konstantin.schuetz@bauing.uni-kl.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

 

Feibai Huang

huangf@rhrk.uni-kl.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

Fachbetreuer/in im BBSR :

Anne Bauer, WB 3

Eckdaten
Schlagworte zum Projekt : Dokumentensegmentierung, Dokumentenklassifizierung, Informationsextraktion, Massenscan, Convolutional Neural Network, Clustering, Maschinelles Lernen, Gebäudedokumentation, Dokumentenmanagement, Dokumentenmanagementsysteme, Lebenszyklusanalysen, Energieeffizienzanalysen
Einordnung in Zukunft Bau : Publikation BBSR, Forschungsförderung, Immobilienwirtschaft, Ökobilanzierung/ Lebenszyklusanalyse, BIM/ digitale Planungsprozesse, Bestandsgebäude, Forschungsbericht
Forschungskategorie nach EU : Grundlagenforschung
Art des Unternehmens : Einrichtung für Forschung und Wissensverbreitung
Bundesförderung in EUR : 164.808,46
Projektetage der Bauforschung
Projektvorstellung 1 10.06.2021 Mehr
Projektvorstellung 2 21.06.2022