Ein „R“ für eine Sprache
Ein unscheinbarer PC-Server auf dem Campus der Wirtschaftsuniversität, ein einzelner Buchstabe auf einem Buchcover – ein „R“, hinter dem sich eine komplexe Programmiersprache verbirgt, die mittlerweile das Statistik-Universum der Welt erobert hat. Die Open-Source-Software „R“ steht BenutzerInnen, egal ob Studierende, WissenschaftlerInnen oder Privatpersonen, frei zur Verfügung. Diese Programmiersprache zur statistischen Datenanalyse und Grafik kommt heute weltweit in nahezu jedem akademischen statistischen Ausbildungsprogramm zur Anwendung. Einer der Kernentwickler dieser Programmiersprache ist WU-Professor Kurt Hornik vom Institut für Statistik und Mathematik. In einem Interview erzählt er uns warum „R“ überhaupt entwickelt wurde und was ihm an dieser Programmiersprache so am Herzen liegt:
Wozu brauche ich eine Programmiersprache?
Mit Hilfe geeigneter Programmiersprachen kann man Rechner auf flexible und effiziente Art und Weise dazu bringen die gewünschten Berechnungen durchzuführen. „R“ ist ein System für wissenschaftliches Rechnen, das besonders Basisfunktionalität für Datenanalyse und Grafik zur Verfügung stellt. Die Sprache „R“ macht diese Funktionalität über High-Level Funktionen effizient einsetzbar, und andererseits flexibel erweiterbar. Wenn man Werte x und y von 2 Variablen hat, schreibt man beispielsweise plot(x, y) um die Werte gegeneinander zu plotten, also ein Streudiagramm zu bekommen, und lm(y ~ x) um ein lineares Regressionsmodell anzupassen. Jeder solcher Aufrufe ist schon ein kleines Programm in „R“.
Warum und von wem wurde „R“ entwickelt?
Vor „R“ war „S“ … ein System für Datenanalyse und Grafik das in den 70er Jahren des letzten Jahrhunderts bei AT&T Bell Labs entwickelt wurde, um den MitarbeiterInnen das Arbeiten mit den verfügbaren mathematischen und statistischen Programmbibliotheken zu erleichtern. Anfang der 90er Jahre war dies in der Statistik einigermaßen populär aber nicht frei verfügbar, und 2 Kollegen in Neuseeland haben mit der Entwicklung einer freien (Open Source) Version begonnen. Es hat sich dann bald ein Team von Kernentwicklern formiert, die Sprache und Basissystem gemeinsam weiterentwickelt haben. Die Basis ist in Form sogenannter „Packages“ flexibel erweiterbar. Jedes Erweiterungspaket (von denen es mittlerweile viele Tausende gibt) ist eine Weiterentwicklung von R. Die Palette dieser Pakete reicht von Software mit hohem Freizeitwert (e.g., Sudoko Solver) zu Erweiterungen von aktuellem Forschungsinteresse oder hoher Praxisrelevanz (e.g., Integration von „R“ basierten Berechnungen in Web Services). Vor allem im Bereich der akademischen Statistik hat sich R mittlerweile als „lingua franca“ etabliert.
Ihre Arbeit in Bezug auf die Programmiersprache „R“?
Bei R gibt es ja zunächst ein Basissystem und eine Vielzahl von Erweiterungen („Packages“), die über Repositories verfügbar gemacht werden. Ich bin einerseits unter den aktivsten Mitgliedern des Entwicklungsteams für das Basissystem, und andererseits der Mitbegründer und -betreiber des „Comprehensive R Archive Network“, das derzeit ein Repository von mehr als 7500 Erweiterungspaketen zur Verfügung stellt. Einige dieser Packages habe ich selbst alleine oder gemeinsam mit Kollegen entwickelt. Aktuell arbeite ich vor allem an Erweiterungen im Bereich des Text Mining und Natural Language Processing.
Warum liegt Ihnen die Programmiersprache „R“ so am Herzen?
Ich habe während meines Studiums meine Liebe zur Datenanalyse entdeckt:
damals war gute Software dafür nur schwer verfügbar, weil die Lizenzgebühren (auch für „S“) so hoch waren. Mir liegt es daher am Herzen, dass die Allgemeinheit freien und nachhaltigen Zugang zu qualitativ hochwertigen Softwarelösungen in diesem Bereich hat. Das scheint mit „R“ hervorragend zu klappen, insbesondere weil in vielen scientific communities aktuelle Forschungsideen via „R“ umgesetzt werden, und in Form von Packages der Allgemeinheit zeitnah und frei zur Verfügung gestellt werden.
Haben Sie ein großes Ziel in Bezug auf „R“?
Ja, dass „R“ mir irgendwann einmal wieder mehr Freizeit lässt, und auch in Zukunft für die Dinge steht die mir am Herzen liegen.
#R #Programmiersprache #Statistik #Software