Zukunft Bau: 10.08.18.7-20.26

In ML-BAU-DOK werden die methodischen Grundlagen entwickelt, um aus analogen oder digitalen Dokumenten relevante Informationen für die Anwendungsbereiche Energieeffizienz- und Lebenszyklusanalysen automatisiert zu extrahieren und aufzubereiten.
ML-BAU-DOK folgt dabei vier Schritten: Regeln der Digitalisierung, Segmentierung von Massendokumenten, Priorisierung von Dokumenten und abschließend Klassifizierung.
Zunächst wird die effiziente Digitalisierung großer Dokumentenmengen (Massenscan) unter Beachtung der wichtigsten Regeln beschrieben. Hierzu wurde Gebäudedokumentation im Rahmen des Projekts digitalisiert. Folglich wird aufgezeigt, wie Massenscans automatisiert durch Algorithmen in Einzeldokumente separiert werden können. Um die Dokumente anschließend klassifizieren zu können, werden Methoden zur anwendungsfallbezogenen Definition von Dokumentenklassen beschrieben. Dadurch können für unterschiedliche Anwendungsbereiche die erforderlichen Schlüsseldokumente auf Basis der Schlüsselinformationen identifiziert und Gebäudedokumentation hinsichtlich ihrer Eignung für diverse Anwendungsbereiche bewertet werden. Hierbei werden Kriterien der Datenqualität und Maschinenlesbarkeit als Voraussetzungen für Maschinelles Lernen zugrunde gelegt, die auf alle denkbaren Anwendungsbereiche übertragen werden können. Die künftige automatisierte Klassifizierung der Dokumente wird durch eigens entwickelte Algorithmen ermöglicht, die open-source zugänglich sind.

Ergebnisse

ML-BAU-DOK umfasst Regeln und Methoden für die Digitalisierung von Dokumenten des Immobilienmanagements. Zunächst wurde der typische Prozess einer Dokumentendigitalisierung im Massenscanverfahren hergeleitet. Für die Bereitstellung der Massenscans als Einzeldokumente wurde ein Segmentierungsalgorithmus geschrieben, der zusammenhängende Dokumente erkennt und mit einer Trennungswahrscheinlichkeit von 40 % automatisiert in Einzeldokumente trennt. Als Grundlage der Informationsextraktion dienen vorab klassifizierte Dokumente, bei denen eine hohe Datenqualität sichergestellt ist. Hierzu wurden zwei Methoden (Scoring-Modell & Active-Learning-Modell) beschrieben, nach denen Dokumente hinsichtlich ihrer Datenqualität und Maschinenlesbarkeit bewertet werden. Es konnte eine Satzzeichen- und Worterkennungsquote von mehr als 90 % erzielt werden. Zudem wurden hinsichtlich Datenqualität die Dokumentenklassen für die Anwendungsfälle Energieeffizienz- und Lebenszyklusanalyse auf 18 entscheidende Dokumentenklassen reduziert. Abschließend wurden die Dokumente als Grundlage für die Informationsextraktion Dokumentenklassen zugeordnet. Unter Anwendung der Dokumentenklassen nach Mueller (2023) konnte bei strukturierten und inhaltsähnlichen Dokumenten eine Klassifizierungsquote von 100 % erreicht werden. ML-BAU-DOK erzeugt ein System, um aus massenhaften Papierdokumenten automatisiert digitale, getrennte, sortierte und abgelegte Dokumente zu generieren. Hieraus können klassenspezifisch Informationen extrahiert werden. Dies bildet die Grundlage für zukünftige ML-basierte Dokumentenauswertungen.

Projektbeteiligte
Antragsteller/in :	RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau Gottlieb-Daimler-Straße 47 67663 Kaiserslautern
Federführende/r Forscher/in (alternativ Sprecher/in) :	RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau Prof. Dr. Björn-Martin Kurzrock bjoern.kurzrock@rptu.de Paul-Ehrlich-Str. 14 67663 Kaiserslautern Jonathan Rothenbusch Jonathan.rothenbusch@bauing.uni-kl.de Paul-Ehrlich-Str. 14 67663 Kaiserslautern Konstantin Schütz konstantin.schuetz@bauing.uni-kl.de Paul-Ehrlich-Str. 14 67663 Kaiserslautern Feibai Huang huangf@rhrk.uni-kl.de Paul-Ehrlich-Str. 14 67663 Kaiserslautern
Fachbetreuer/in im BBSR :	Anne Bauer, WB 3

Projektbeteiligte

Antragsteller/in :

RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau

Gottlieb-Daimler-Straße 47

67663 Kaiserslautern

Federführende/r Forscher/in (alternativ Sprecher/in) :

RPTU Rheinland-Pfälzische Technische Universität Kaiserslautern Landau

Prof. Dr. Björn-Martin Kurzrock

bjoern.kurzrock@rptu.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

Jonathan Rothenbusch

Jonathan.rothenbusch@bauing.uni-kl.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

Konstantin Schütz

konstantin.schuetz@bauing.uni-kl.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

Feibai Huang

huangf@rhrk.uni-kl.de

Paul-Ehrlich-Str. 14

67663 Kaiserslautern

Fachbetreuer/in im BBSR :

Anne Bauer, WB 3

Eckdaten
Schlagworte zum Projekt :	Dokumentensegmentierung, Dokumentenklassifizierung, Informationsextraktion, Massenscan, Convolutional Neural Network, Clustering, Maschinelles Lernen, Gebäudedokumentation, Dokumentenmanagement, Dokumentenmanagementsysteme, Lebenszyklusanalysen, Energieeffizienzanalysen
Einordnung in Zukunft Bau :	Publikation BBSR, Forschungsförderung, Immobilienwirtschaft, Ökobilanzierung/ Lebenszyklusanalyse, BIM/ digitale Planungsprozesse, Bestandsgebäude, Forschungsbericht
Forschungskategorie nach EU :	Grundlagenforschung
Art des Unternehmens :	Einrichtung für Forschung und Wissensverbreitung
Bundesförderung in EUR :	164.808,00

Projektetage der Bauforschung
Projektvorstellung 1	10.06.2021	Mehr
Projektvorstellung 2	21.06.2022

Übersicht Programme

Übersicht Förderung

Übersicht Projekte

Übersicht Mediathek

Übersicht Veranstaltungen

Übersicht Über uns

Maschinelles Lernen im Bereich Gebäudedokumentation

Grundlagen zur Informationsextraktion für Energieeffizienz- und Lebenszyklusanalysen (ML-BAU-DOK)

Übersicht Programme

Übersicht Förderung

Übersicht Projekte

Übersicht Mediathek

Übersicht Veranstaltungen

Übersicht Über uns

Grundlagen zur Informationsextraktion für Energieeffizienz- und Lebenszyklusanalysen (ML-BAU-DOK)

Verwandte Projekte

Maschinelles Lernen zur Informationsextraktion im Bereich Gebäudedokumentation