Seite - 72 - in Austrian Law Journal, Band 1/2016
Bild der Seite - 72 -
Text der Seite - 72 -
ALJ 1/2016 Semantische Analyse unstrukturierter Daten 72
extrahiert daraus die Metadaten und den Text. Dieser Vorgang wird als „Crawling“ bezeichnet.
Der sehr rechenintensive Vorgang kann in Abhängigkeit der Hardware und der Datenmenge
einige Stunden in Anspruch nehmen.
b. Tokenization und syntaktische Aufbereitung
Die sprachliche Analyse des Textes wird im nächsten Schritt mit einem sog „Parser“ durchgeführt.
Da die weitere semantische Analyse eines Textes bereits von der zugewiesenen Sprache abhängig
ist, wird vom Parser auch die Sprache festgestellt. Bei der „Part of Speech“-Erkennung werden
zunächst Seiten, Absätze und Sätze in sog „Token“ zerlegt (Tokenization) und dann in weiterer
Folge morphologisch (Personalformen, Fallmarkierungen) und syntaktisch (Subjekt, Objekt, Modi-
fikator, Artikel etc) analysiert. Dieser Vorgang fĂĽhrt ua auch jedes Wort auf seine lexikalische Grund-
form zurück. Der ICI-Standard beinhaltet die Sprachen Deutsch und Englisch. Derzeit können bei
Bedarf noch 25 weitere Sprachen eingesetzt werden.
c. Semantische Auswertung (Parsing Rules)
Der dritte Schritt ist die semantische Analyse. Dabei kann auf alle vorangegangenen Analysen
zurückgegriffen werden. Semantische Analysen werden durch Regeln, die sog „Parsing Rules“,
implementiert. Dabei wird einzelnen Wörtern oder ganzen Satzteilen eine Bedeutung zugeordnet.
Zum Verständnis sollen einige semantische Analysen aus dem ICI-Standardmodell vorgestellt
werden.
Personen, Firmen, Orte, Geldbeträge, Kontoverbindungen, Betrags- und Datumsangaben inner-
halb des Textes zu annotieren, ist Teil des ICI-Standardanalysemodells. Parsing Rules werden von
Fachexperten mit spezieller Software, wie bspw dem IBM Watson Studio, entwickelt und getestet.
IBM Watson Studio ermöglicht anhand von relevanten Beispieltexten neue Modelle direkt zu
entwickeln und die Ergebnisse der einzelnen Regeln sofort zu evaluieren. Unterschiedlichste Wör-
terbücher oder Wissensmodelle können eingebunden werden und werden in der Regeldefinition
verwendet. Eine Parsing Rule erkennt zB Firmenbezeichnungen und annotiert diesen Satzteil mit
„Firma“. Die Ergebnisse der Parsing Rule können normalisiert im Index als Facette „Firmen“ abge-
legt werden, es entsteht also vereinfacht eine Liste aller gefundenen Firmen aus den gesamten
Daten. Der Index beinhaltet natĂĽrlich auch die exakten Orte des Vorkommens jedes einzelnen
Eintrages. Ein weiteres Beispiel sind Datumsangaben: Normalisiert bedeutet in diesem Fall, dass
zB Textpassagen wie „5. Februar 2016“, „05/02/16“ oder „2016-02-05“ mit einer entsprechenden
Parsing Rule in der Facette „Datum“ mit dem Wert „05.02.2016“ abgelegt werden. Zusätzlich wird
diese Facette als Datumsfacette definiert und ermöglicht damit, einen bestimmten Zeitraum
abzufragen. Auch diese Facette (Liste) liefert sofort, ob und welche Datumsinformationen in allen
(kein Filter bzw keine Suchabfrage aktiv) bzw in den Inhalten der aktuell gefilterten Dokumente
vorkommen. Die Möglichkeiten zur Definition von Parsing Rules sind vielfältig.
2. Facettenbildung
Die normalisierten Parsing-Ergebnisse werden als „Facetten“ im Index abgelegt. Wichtig für die
Anwender ist dabei die Repräsentation dieser Ergebnisse in einer übersichtlichen, gut geglieder-
ten Facettenstruktur und damit deren einfache Anwendung und Auswertbarkeit.
zurĂĽck zum
Buch Austrian Law Journal, Band 1/2016"
Austrian Law Journal
Band 1/2016
- Titel
- Austrian Law Journal
- Band
- 1/2016
- Autor
- Karl-Franzens-Universität Graz
- Herausgeber
- Brigitta Lurger
- Elisabeth Staudegger
- Stefan Storr
- Ort
- Graz
- Datum
- 2016
- Sprache
- deutsch
- Lizenz
- CC BY 4.0
- Abmessungen
- 19.1 x 27.5 cm
- Seiten
- 110
- Schlagwörter
- Recht, Gesetz, Rechtswissenschaft, Jurisprudenz
- Kategorien
- Zeitschriften Austrian Law Journal