Information Retrieval Facility

Das Information Retrieval Facility (kurz IRF) war eine Forschungsplattform und diente der Zusammenarbeit von Experten im Bereich der Information Retrieval (IR).

Es wurde 2006 gegründet und hatte seinen Sitz in Wien. Das IRF war das weltweit erste E-Science-System, das ausschließlich der semantischen Verarbeitung von Text gewidmet war. Zu den Mitarbeitern zählten Experten, Forscher und Studenten in den Bereichen Information Retrieval und Informationsmanagement.

Das IRF hat 2012 seine Aktivitäten eingestellt.

Ziele

Das Information Retrieval Facility diente der Forschung und Schaffung von wissenschaftlichen Zielen. Dazu gehörten unter anderem die Modellierung von Information-Retrieval-Systemen für globale Patentdokumentsammlungen. Mit diesen Systemen, die sich mit dem Begriff Informationsrückgewinnung übersetzen lassen, können komplexe Suchen durchgeführt werden. Diese umfasst neben Textdateien auch Informationen aus Bildern.

Ein weiterer Zweig des Unternehmens war die die Erforschung und Entwicklung einer technischen Infrastruktur, die interaktive Experimente mit formalen und mathematischen Retrieval-Konzepten für sehr große Dokumentsammlungen ermöglicht. Eng verbunden ist damit die Untersuchung der Usability von multimodalen User-Interfaces groß angelegter Information-Retrieval-Systeme, um eine angemessene Bedienung durch verschiedene Benutzergruppen zu ermöglichen. Des Weiteren wurde die Integration von Usern und deren Bedürfnissen in den Prozess der Modellierung von Information-Retrieval-Systemen eingebunden, so dass eine genaue Leistungsbewertung sichergestellt war.

Patentdaten wurden in unterschiedlichen Ansichten dargestellt, so dass in der entsprechenden Abhängigkeit der Fokus gewährleistet ist.

Das IRF hat sich auch für eine Definition standardisierter Methoden für die Bewertung der Information-Retrieval-Prozesse in den Patentschriftkollektionen eingesetzt. Sie wollten die Fähigkeit, Text- und Nicht-Text-Anteile eines Patents in einer kohärenten Weise in den Griff bekommen und Suchmaschinen entwickeln, die es ermöglichen, strukturierte und semi-strukturierte Dokumente in sehr großen Patent-Sammlungen zu finden. Im Rahmen der Erprobung sollten Bewertungen vorgenommen werden. Dabei sollten zeitliche Dimensionen von Patentdokumenten in Retrieval-Strategien integriert werden.

Ein weiteres Ziel der IRF war die Verbesserung der Effizienz und Präzision von Patent-Retrieval basierend auf Ontologien und verschiedenen Sprach-Techniken und die Schaffung von verbesserten IR-Methoden, mit denen die Nutzung unstrukturierter Abfragen innerhalb eines Patentdokuments möglich wird. Formale (mathematische) Identifikation und Spezifikation von Business-relevanten Informationen sollen helfen, Intellectual Property (Geistiges Eigentum) zu erkennen. Zudem wurde die Erforschung von Skalierungsmechanismen im Information-Retrieval Bereich unter Berücksichtigung der Merkmale von Patentdaten und die Ermittlung und das Experimentieren mit Computing-Architekturen für sehr hohes Kapazität-Informations-Management vorangetrieben.

Die Schaffung einer offenen E-Science-Plattform, die auf eine einheitliche und einfache Weise die Erstellung und Durchführung von IR-Experimenten auf einer gemeinsamen Forschungsinfrastruktur ermöglicht, stand weiterhin auf der Agenda des Unternehmens. Hinzu kam die Entdeckung und Erforschung von Anwendungszwecken und Business-Anwendungen, die sich aus Informationen der Intellectual Property ergeben. Aktiviert wurden dazu formale Informationsrückgewinnungen (Information Retrieval), Sprachen und semantische Verarbeitungen in den Bereich der angewandten Wissenschaften, die die Informationen in den globalen, industriellen Kontext bringen. Die Entwicklung und Integration von verschiedenen Informations-Zugriffsmethoden und die Forschung über effektive Methoden für die interaktive Information-Retrieval war ein weiteres Tätigkeitsfeld.

Semantic Supercomputing

Aktuelle Technologien zur Extraktion von Konzepten aus unstrukturierten Dokumenten sind mit intensiver Rechenleistung verbunden. Um das interaktive Experimentieren mit großen Text-Korpora zu ermöglichen, besaß das IRF eine High-Performance-Computing (HPC)-Umgebung für performantes Text Mining. Diese war mit einem Multi-Node-System ausgestattet, das 80 Kernen besteht, dass bis auf 1024 Kerne aufgestockt werden konnte. Dieses war mit einer Höchstgeschwindigkeits-Interconnect Technologie verbunden. Hinzu kamen einzelne Systeme mit großen Speichermöglichkeiten von 320 GB, die bis 4 TB ausgebaut werden konnten. Die Systeme waren dank 4 FPGA-Cores, die bis zu 256 Cores ausbaubar waren, zudem komplett schaltbar.

Welt Patent Corpus

Die Zielsetzung des IRF war die Schaffung einer Plattform für Patent-Experten, die auf modernen Information-Retrieval-Technologien basiert. Es wurde erwartet, dass die Information Retrieval (IR)-Technologien in den Mittelpunkt der Informationstechnologie treten werden.

Die Gesamtheit aller Patent-Dokumente stellt einen gewaltigen Textkorpus dar. Patente haben sich zu einem entscheidenden Thema insbesondere für globale Unternehmen und Universitäten entwickelt. Die industriellen Anwender von Patentdaten gehören zu den anspruchsvollsten und wichtigsten Informationsprofis überhaupt. Diese Zielgruppen werden am meisten von einer Technologie profitieren, die ihnen bei der Erforschung großer Datenmengen hilft.

Weblinks

Referenzen

Patent medicine for information retrievers, Information World Review (Memento vom 12. Februar 2012 im Internet Archive)
The IIRF and its Role in Professional Information Research, ECIR 2008