Web-Books
in the Austria-Forum
Austria-Forum
Web-Books
Zeitschriften
Austrian Law Journal
Austrian Law Journal, Volume 1/2016
Page - 72 -
  • User
  • Version
    • full version
    • text only version
  • Language
    • Deutsch - German
    • English

Page - 72 - in Austrian Law Journal, Volume 1/2016

Image of the Page - 72 -

Image of the Page - 72 - in Austrian Law Journal, Volume 1/2016

Text of the Page - 72 -

ALJ 1/2016 Semantische Analyse unstrukturierter Daten 72 extrahiert daraus die Metadaten und den Text. Dieser Vorgang wird als „Crawling“ bezeichnet. Der sehr rechenintensive Vorgang kann in Abhängigkeit der Hardware und der Datenmenge einige Stunden in Anspruch nehmen. b. Tokenization und syntaktische Aufbereitung Die sprachliche Analyse des Textes wird im nächsten Schritt mit einem sog „Parser“ durchgeführt. Da die weitere semantische Analyse eines Textes bereits von der zugewiesenen Sprache abhängig ist, wird vom Parser auch die Sprache festgestellt. Bei der „Part of Speech“-Erkennung werden zunächst Seiten, Absätze und Sätze in sog „Token“ zerlegt (Tokenization) und dann in weiterer Folge morphologisch (Personalformen, Fallmarkierungen) und syntaktisch (Subjekt, Objekt, Modi- fikator, Artikel etc) analysiert. Dieser Vorgang führt ua auch jedes Wort auf seine lexikalische Grund- form zurück. Der ICI-Standard beinhaltet die Sprachen Deutsch und Englisch. Derzeit können bei Bedarf noch 25 weitere Sprachen eingesetzt werden. c. Semantische Auswertung (Parsing Rules) Der dritte Schritt ist die semantische Analyse. Dabei kann auf alle vorangegangenen Analysen zurückgegriffen werden. Semantische Analysen werden durch Regeln, die sog „Parsing Rules“, implementiert. Dabei wird einzelnen Wörtern oder ganzen Satzteilen eine Bedeutung zugeordnet. Zum Verständnis sollen einige semantische Analysen aus dem ICI-Standardmodell vorgestellt werden. Personen, Firmen, Orte, Geldbeträge, Kontoverbindungen, Betrags- und Datumsangaben inner- halb des Textes zu annotieren, ist Teil des ICI-Standardanalysemodells. Parsing Rules werden von Fachexperten mit spezieller Software, wie bspw dem IBM Watson Studio, entwickelt und getestet. IBM Watson Studio ermöglicht anhand von relevanten Beispieltexten neue Modelle direkt zu entwickeln und die Ergebnisse der einzelnen Regeln sofort zu evaluieren. Unterschiedlichste Wör- terbücher oder Wissensmodelle können eingebunden werden und werden in der Regeldefinition verwendet. Eine Parsing Rule erkennt zB Firmenbezeichnungen und annotiert diesen Satzteil mit „Firma“. Die Ergebnisse der Parsing Rule können normalisiert im Index als Facette „Firmen“ abge- legt werden, es entsteht also vereinfacht eine Liste aller gefundenen Firmen aus den gesamten Daten. Der Index beinhaltet natürlich auch die exakten Orte des Vorkommens jedes einzelnen Eintrages. Ein weiteres Beispiel sind Datumsangaben: Normalisiert bedeutet in diesem Fall, dass zB Textpassagen wie „5. Februar 2016“, „05/02/16“ oder „2016-02-05“ mit einer entsprechenden Parsing Rule in der Facette „Datum“ mit dem Wert „05.02.2016“ abgelegt werden. Zusätzlich wird diese Facette als Datumsfacette definiert und ermöglicht damit, einen bestimmten Zeitraum abzufragen. Auch diese Facette (Liste) liefert sofort, ob und welche Datumsinformationen in allen (kein Filter bzw keine Suchabfrage aktiv) bzw in den Inhalten der aktuell gefilterten Dokumente vorkommen. Die Möglichkeiten zur Definition von Parsing Rules sind vielfältig. 2. Facettenbildung Die normalisierten Parsing-Ergebnisse werden als „Facetten“ im Index abgelegt. Wichtig für die Anwender ist dabei die Repräsentation dieser Ergebnisse in einer übersichtlichen, gut geglieder- ten Facettenstruktur und damit deren einfache Anwendung und Auswertbarkeit.
back to the  book Austrian Law Journal, Volume 1/2016"
Austrian Law Journal Volume 1/2016
Title
Austrian Law Journal
Volume
1/2016
Author
Karl-Franzens-Universität Graz
Editor
Brigitta Lurger
Elisabeth Staudegger
Stefan Storr
Location
Graz
Date
2016
Language
German
License
CC BY 4.0
Size
19.1 x 27.5 cm
Pages
110
Keywords
Recht, Gesetz, Rechtswissenschaft, Jurisprudenz
Categories
Zeitschriften Austrian Law Journal
Web-Books
Library
Privacy
Imprint
Austria-Forum
Austria-Forum
Web-Books
Austrian Law Journal