Seite - 72 - in Austrian Law Journal, Band 1/2016

Bild der Seite - 72 -

Text der Seite - 72 -

ALJ 1/2016 Semantische Analyse unstrukturierter Daten 72 extrahiert daraus die Metadaten und den Text. Dieser Vorgang wird als „Crawling“ bezeichnet. Der sehr rechenintensive Vorgang kann in Abhängigkeit der Hardware und der Datenmenge einige Stunden in Anspruch nehmen. b. Tokenization und syntaktische Aufbereitung Die sprachliche Analyse des Textes wird im nächsten Schritt mit einem sog „Parser“ durchgeführt. Da die weitere semantische Analyse eines Textes bereits von der zugewiesenen Sprache abhängig ist, wird vom Parser auch die Sprache festgestellt. Bei der „Part of Speech“-Erkennung werden zunächst Seiten, Absätze und Sätze in sog „Token“ zerlegt (Tokenization) und dann in weiterer Folge morphologisch (Personalformen, Fallmarkierungen) und syntaktisch (Subjekt, Objekt, Modi- fikator, Artikel etc) analysiert. Dieser Vorgang führt ua auch jedes Wort auf seine lexikalische Grund- form zurück. Der ICI-Standard beinhaltet die Sprachen Deutsch und Englisch. Derzeit können bei Bedarf noch 25 weitere Sprachen eingesetzt werden. c. Semantische Auswertung (Parsing Rules) Der dritte Schritt ist die semantische Analyse. Dabei kann auf alle vorangegangenen Analysen zurückgegriffen werden. Semantische Analysen werden durch Regeln, die sog „Parsing Rules“, implementiert. Dabei wird einzelnen Wörtern oder ganzen Satzteilen eine Bedeutung zugeordnet. Zum Verständnis sollen einige semantische Analysen aus dem ICI-Standardmodell vorgestellt werden. Personen, Firmen, Orte, Geldbeträge, Kontoverbindungen, Betrags- und Datumsangaben inner- halb des Textes zu annotieren, ist Teil des ICI-Standardanalysemodells. Parsing Rules werden von Fachexperten mit spezieller Software, wie bspw dem IBM Watson Studio, entwickelt und getestet. IBM Watson Studio ermöglicht anhand von relevanten Beispieltexten neue Modelle direkt zu entwickeln und die Ergebnisse der einzelnen Regeln sofort zu evaluieren. Unterschiedlichste Wör- terbücher oder Wissensmodelle können eingebunden werden und werden in der Regeldefinition verwendet. Eine Parsing Rule erkennt zB Firmenbezeichnungen und annotiert diesen Satzteil mit „Firma“. Die Ergebnisse der Parsing Rule können normalisiert im Index als Facette „Firmen“ abge- legt werden, es entsteht also vereinfacht eine Liste aller gefundenen Firmen aus den gesamten Daten. Der Index beinhaltet natürlich auch die exakten Orte des Vorkommens jedes einzelnen Eintrages. Ein weiteres Beispiel sind Datumsangaben: Normalisiert bedeutet in diesem Fall, dass zB Textpassagen wie „5. Februar 2016“, „05/02/16“ oder „2016-02-05“ mit einer entsprechenden Parsing Rule in der Facette „Datum“ mit dem Wert „05.02.2016“ abgelegt werden. Zusätzlich wird diese Facette als Datumsfacette definiert und ermöglicht damit, einen bestimmten Zeitraum abzufragen. Auch diese Facette (Liste) liefert sofort, ob und welche Datumsinformationen in allen (kein Filter bzw keine Suchabfrage aktiv) bzw in den Inhalten der aktuell gefilterten Dokumente vorkommen. Die Möglichkeiten zur Definition von Parsing Rules sind vielfältig. 2. Facettenbildung Die normalisierten Parsing-Ergebnisse werden als „Facetten“ im Index abgelegt. Wichtig für die Anwender ist dabei die Repräsentation dieser Ergebnisse in einer übersichtlichen, gut geglieder- ten Facettenstruktur und damit deren einfache Anwendung und Auswertbarkeit.

zurück zum Buch Austrian Law Journal, Band 1/2016"

Austrian Law Journal Band 1/2016

Titel: Austrian Law Journal
Band: 1/2016
Autor: Karl-Franzens-Universität Graz
Herausgeber: Brigitta Lurger; Elisabeth Staudegger; Stefan Storr
Ort: Graz
Datum: 2016
Sprache: deutsch
Lizenz: CC BY 4.0
Abmessungen: 19.1 x 27.5 cm
Seiten: 110
Schlagwörter: Recht, Gesetz, Rechtswissenschaft, Jurisprudenz
Kategorien: Zeitschriften Austrian Law Journal