....................
 
    Lernforum Deutsch, Bonn

 

Online-Recherche in Corpora - Hinweise für DaF-Lehrer und Studierende von DaF 

G. Miklitz, Studienkolleg Bonn (April 2002)


Mit dem schnellen Einzug der Neuen Medien in Hochschulen und Schulen ist die Frage  ihrer sinnvollen Einsatzmöglichkeiten kaum noch strittig.(1) Für die unterrichtspraktische Arbeit in Deutsch als Fremdsprache ist der Gebrauch von  Online-Wörterbüchern für viele Lernende selbstverständlich.(2)  Eine weitere Nachschlagemöglichkeit, die das besondere Interesse von Lehrenden und Lernenden weckt, ist die Online-Recherche in Corpora.(3)  

In der Sprachwissenschaft hat sich unter den Begriffen Corpora und Korpus-Linguistik eine neue Arbeitsweise zur Untersuchung authentischen Sprachmaterials auf der Basis maschinenlesbarer Textsammlungen etabliert. In der Düsseldorfer Virtuelle Bibliothek: Anglistik/Amerikanistik: wird sie wie folgt charakterisiert:

"Diese noch relativ neue Methode der modernen Linguistik verwendet maschinenlesbare Textsammlungen mit authentischem Sprachmaterial für Untersuchungen in bekannten Bereichen der Linguistik: z.B. Grammatik, Syntax, Wortschatz oder Sprachwandel. Das Material wird mit elektronischen Hilfsmitteln wie automatischen Konkordanz-Programmen, Part-of-Speech-Taggern (Instrumenten zur Wortartanalyse), Parsern (Instrumenten zur syntaktischen Analyse), Statistik-Programmen o.ä. durchsucht und weiterbearbeitet, aufbereitet und analysiert." (http://www.uni-duesseldorf.de/ulb/angkorp.html)


Für unsere fremdsprachendidaktischen und unterrichtspraktischen Zwecke kommen zur Zeit zwei Internet-Adressen mit Online-Recherchen in Betracht:  Die
Corpora des Mannheimer Instituts für Deutsche Sprache und des Wortschatz-Lexikons an der Universität Leipzig.

Im Folgenden wird über erste Erfahrungen mit  der Nutzung dieser Datenbanken bei der Arbeit im Bereich Deutsch als Fremdsprache berichtet.  Außerdem werden Vorschläge für die Verwendung von Suchergebnissen im Unterricht gemacht.

I. Nutzung eines Corpus des Mannheimer Instituts für Deutsche Sprache

Das Mannheimer Institut für Deutsche Sprache bietet einen WWW-Zugang zu einer Reihe von Corpora an, die kostenlos recherchierbar sind.  Allerdings muss man sich vorher per e-Mail registrieren lassen.

Ein besonders großes Korpus ist - nach der gleichnamigen Tageszeitung - „Mannheimer Morgen“:

„Das Korpus beinhaltet eine außerordentlich große Menge von Zeitungsartikeln, die in elektronischer Form vom Verlagshaus der Tageszeitung Mannheimer Morgen bezogen wurde bzw. wird (ohne Anzeigenteil). Das gesamte Textmaterial wurde bzw. wird im IDS vollautomatisch aufbereitet. Das Korpus ist ein sog. Monitorkorpus, für das kennzeichnend ist, dass sich seine Zusammensetzung mit der Zeit ändert, und zwar in diesem Fall durch regelmäßiges Hinzufügen von Zeitungsartikeln jüngeren Datums.“  Anzahl Artikel:  360 Mill. Anzahl laufende Wortformen (ca.) 546  Mill.

.

Dieses Corpus ist aufrufbar unter der Adresse:  http://corpora.ids-mannheim.de/cosmas/

Unsere erste Nutzung  des genannten Corpus stand im Zusammenhang mit der Frage des Schwierigkeitsgrades von Prüfungstexten.  Aus einem Sprachtest für die Aufnahme von Studienbewerbern in ein Studienkolleg in Nordrhein-Westfalen wurde die folgende Liste von Komposita selektiert: 

Realschulabschluss, Denkoperationen, Elektronengehirn, Wiedervereinigung, Sportarten, Sommerspiel, Familienministerium, Bildungsniveau, Partnerschaft, Haushaltstechnik, Elektroherd, Haushaltsgeräte, Heizungsanlage, Flugverkehr, Bildschirm.  

 

Wie schwer sind diese Wörter für ausländische Deutschlerner?

Wenn man die Wörter im Corpus "Mannheimer Morgen" durch eine Online-Abfrage sucht, erhält man u. a. die Information,  wie häufig das jeweilige Wort im Corpus vorkommt.  Ein Wort das selten vorkommt, ist vermutlich den Lernern unbekannt.

Allerdings ist zu bedenken: Das Verstehen von Wörtern, die ohne ihren Kontext dargeboten werden,  ist ein anderes Verstehen als das Verstehen derselben Wörter im Textganzen.  Deshalb kann man  nicht damit rechnen, die Frage des Schwierigkeitsgrades mit einer solchen Abfrage vollständig zu beantworten.  Aber das Verstehen oder Nichtverstehen solcher Einzelwörter, die nach aller Erfahrung als schwierig gelten wegen ihrer Komplexität (Nominalkomposition als besonderes Phänomen des Deutschen), kann doch wesentliche Anhaltspunkte für die umfassende didaktische Einschätzung des Textes geben.(4)  

Man ist zumindest überrascht, wenn man seine ersten Vermutungen darüber, welche Wörter wohl schwer und welche leicht  sind, mit den Abfragergebnissen vergleicht. Dem Leser möchten wir empfehlen, einen Selbsttest durchzuführen und vor dem Weiterlesen die drei schwierigsten Wörter der obigen Komposita-Liste zu markieren.

Nachfolgend geben wir die Liste der Wörter mit dem Ergebnis der Abfrage wieder. Die Zahlen hinter den Wörtern bezeichnen die Häufigkeit des Wortes im Corpus.  Diese Vorkommenshäufigkeit im Corpus kann  für die Auswahl von Wörtern für Sprachtests und für Unterrichtstexte ein Kriterium sein.  Dabei ist  natürlich zu bedenken, dass eine solche statistische Häufigkeitsanalyse nur einen Aspekt der Textschwierigkeit beziehungsweise der Schwierigkeit des darin enthaltenen Wortschatzes darstellt.  Aber auf jeden Fall ist damit zu rechnen, dass Wörter mit extrem geringer Frequenz  den Lernern auf mittlerem Niveau sehr wahrscheinlich unbekannt sind.

Natürlich wäre es noch praxisnäher, wenn man Wortschatzlisten oder ganze Texte in einem Corpus überprüfen könnte, der die Summe aller einschlägigen DaF-Lehrbücher der Grund- und Mittelstufe beinhalten würde. Nicht zuletzt aus Urheberrechtsgründen steht ein solches Corpus der Öffentlichkeit noch nicht zur Verfügung. (5)

In unserer Abfrage enthielt die Liste der überprüften Wörter aus dem erwähnten SAP-Test  folgende Komposita und Frequenzdaten:

 Realschulabschluss 21

Denkoperationen  0

Elektronengehirn 1

Wiedervereinigung 1014

Sportarten 542

Sommerspiel 104

Familienministerium 48

Bildungsniveau 21

Partnerschaft 2357

Haushaltstechnik 1

Elektroherd 32

Haushaltsgeräte 106

Heizungsanlage 67

Flugverkehr 233

Bildschirm 1512

 

Eine schriftliche Umfrage in zwei Deutsch-Kursen des Studienkollegs Bonn ergab,  dass genau die beiden Wörter mit den niedrigsten Frequenzfaktoren von den Studierenden als besonders schwer zu verstehen beziehungsweise als total unbekannt bezeichnet wurden:  "Denkoperationen" und  "Elektronengehirn". 

Bei ersten Vermutungen über die Reaktion der Studierenden hatte niemand damit gerechnet, dass gerade diese beiden Komposita, die dem Muttersprachler als problemlos erscheinen,  für die Studierenden schwierig wären und dass gerade diese Wörter im Corpus auch eine entsprechend minimale Vorkommenshäufigkeit haben würden.  Wegen ihrer geringen  Vorkommenshäufigkeit waren sie  den Studierenden offenbar in noch keinem Text begegnet. 

Nach diesem ersten Versuch  wenden wir uns einer weiteren Online-Abfrage zu, wobei die Frage gestellt wird, auf welche Weise das Wortschatz-Lernen gefördert werden kann.

II.  Online-Abfrage im  Wortschatz-Lexikon an der Universität Leipzig

An der Universität Leipzig gibt es das Projekt Wortschatz-Lexikon.  Es bietet Zugriff auf 6 Mio. Wörter und 15 Mio. Sätze.  Für unsere Fragestellung ist besonders interessant, dass dies Abfrageergebnisse  auch  in sog. Assoziationsnetzen dargestellt werden können.  Diese graphischen Darstellungen sind unter anderem eine nützliche Grundlage für das autonome Lernen zur Wortschatzerweiterung und für die Entwicklung von Übungen.  Das soll  an ein paar Beispielen gezeigt werden

Zunächst eine kurze Charakterisierung des Leipziger Projekts. Unter der Netzadresse http://wortschatz.uni-leipzig.de findet man folgende Beschreibung: 

„Das Wortschatz-Lexikon) ist ein Vollformenlexikon des Deutschen und verfügt derzeit über mehr als fünf Millionen Vollformen mit einer je unterschiedlichen Anzahl zusätzlicher Angaben.
Es ist aus einer Vielzahl unterschiedlicher Quellen aufgebaut, wobei quantitativ der Volltext mehrerer Tageszeitungen im Vordergrund steht; darüber hinaus gehen aber auch Fachlexika, Fachzeitschriften und Monographien aus unterschiedlichen Wissensgebieten (u. a. Medizin, Rechtswissenschaft, Informatik) in den Datenbestand ein."

 

Um den Studierenden zu zeigen, welche Informationen bei einer Online-Abfrage ausgegeben werden, wählten wir zunächst ein einfaches und bekanntes Verb aus: studieren.
Das erbrachte folgendes Ergebnis (Auszug):

 

Wort: studieren
Anzahl: 3482
Häufigkeitsklasse: 11 (d.h. der ist ca. 2^11 mal häufiger als das gesuchte Wort)

Morphologie:

studi|e|ren

Grammatikangaben:

 

Wortart: Verb

 

 

transitiv

 

intransitiv

 

lautet nicht ab

 

Partizip II mit haben

 

  Relationen zu anderen Wörtern:

Die so erhaltene Information ist weitgehend selbsterklärend.  Eine Ausnahme ist die Information zur Frequenz: "Häufigkeitsklasse: 11 (d.h. der ist ca. 2^11 mal häufiger als das gesuchte Wort)".  Der Häufigkeitsindex 11 bedeutet hier, dass das Wort "der" (das am häufigsten im Corpus vorkommende Wort) zwei hoch elf mal häufiger  vorkommt als das Suchwort "studieren".

Die Informationen über Relationen zu anderen Wörtern eignen sich gut für die Bedeutungserschließung des Wortes, z. B. für einen Tafelanschrieb und für Übungen zur Wortschatzerweiterung. (6)

Besonders für das  Online-Lernen ergeben sich neue Möglichkeiten, da die Wörter der Kollokationsliste einzeln aufgerufen werden können. 

Signifikante Kollokationen für studieren:
Studenten (256), Abitur (230), Jura (178), Medizin (174), Universität (150), Semester (120), wollte (104), begann (96), Fach (93), Theologie (80), Betriebswirtschaft (74), Germanistik (74), Mathematik (69), durfte (69), Abiturienten (68), Hochschulen (68), Hochschule (66), Philosophie (66), Wer (65), wollen (64), möchte (61), läßt (59), Physik (52), Universitäten (51), konnte (48), Studium (46), genau (46), Ausland (45), Stipendium (43), Geschichte (42), Fachhochschule (41), Fächer (40), junge (39), arbeiten (38), Chemie (34), Uni (33), dort (33), sollte (33), Ausbildung (31), Informatik (31), Wintersemester (29), An (28), BWL (28), Sohn (27), anfing (27), Forscher (26), Maschinenbau (26), Elektrotechnik (25), Eltern (25), Architektur (24), Kunstgeschichte (24), Lehramt (24), Mathe (24), Wirtschaftswissenschaften (24), Leute (23), Malerei (23), Student (23), ging (23), Hochschüler (22), Kommilitonen (22), Semestern (22), Anglistik (21), Beruf (21), Soziologie (21), genauer (21), hier (21), Ingenieurwissenschaften (20), Musik (20), Paris (20), Zeit (20), wer (20), Eigentlich (19), Hauptfach (19), Psychologie (19), Unis (19), einmal (19), lieber (19), BAföG (18), Harvard (18), Hebräisch (18)

Nehmen wir an, es werden passende Verben für "Stipendium" und "Abitur" gesucht.  Durch einen Klick auf das entsprechende Wort erhält man eine neue Kollokationsliste und findet unter dem Abschnitt für die rechts neben dem Suchwort vorkommenden Wörter eine Reihe von Verben, die häufig mit dem Wort gebraucht werden.

Signifikante rechte Nachbarn von studieren:
wollen (61), möchte (48), konnte (26), wollte (21), durfte (20), anfing (14), lassen (12), dürfen (11), wollten (9), Kati Winkler (8), begann (8), möchten (8), darf (7), könnten (7), lässt (7), wolle (7), konnten (6), läßt (6), sollte (6), Wirtschaftswissenschaften (5), angehende (5), derzeit (5), solle (5), Jura (4), beide (4), inzwischen (4), durften (3), könne (3), lohnt (3)

Aufgabenvorschläge:

Der Lerner kann online seine Vokabelkenntnisse in bestimmten Wortfeldern überprüfen, wenn er zum Beispiel die Aufgabe hat, die Bedeutung aller Wörter ab einem bestimmten Frequenzwert anzugeben.
 
Er kann auch gebeten werden,  eine bestimmte Auswahl von Wörtern vorzunehmen, diese in die Zwischenablage zu kopieren und sie mit einem Textverarbeitungsprogramm (z.B. Word)  weiter zu bearbeiten.  Als Aufgabe bietet sich sodann das Bilden von Sätzen an.   Es kann auch die Aufgabe gestellt werden, die gefundenen und kopierten Wörter mit einem Lernpartner in einen kurzen Dialog einzubauen.

Darüber hinaus kann eine graphische Darstellung der statistisch relevanten Kollokationen ausgegeben werden.  Man erhält zum Beispiel für das Wort "studieren" das folgende Assoziationsdiagramm.

("Die Daten werden aus öffentlich zugänglichen Quellen automatisch erhoben. Die Kollokationen sind sorgfältig ermittelte Begriffe, die statistisch signifikant mit dem Ausgangsbegriff gemeinsam auftreten. Aus dem gemeinsamen Auftreten von Begriffen können keine Rückschlüsse über die Art eines eventuellen inhaltlichen Zusammenhangs abgeleitet werden." - Copyright 2001 Deutscher Wortschatz.) 

Eine reizvolle Aufgabenstellung mit gruppendynamischem Effekt ist folgende: Jeder Lerner bekommt ein Wort aus dem Diagramm zugeordnet.  Jeder soll nun für "sein" Wort eine Online-Abfrage durchführen und das Ergebnis mit dem Ergebnis eines anderen Lerners im Team vergleichen, wobei dessen Abfrage-Wort mit seinem Wort einen gemeinsamen Knoten haben soll.  So finden sich neue Lernpartner, die eine gemeinsame Aufgabe bearbeiten und das Ergebnis in der Gruppe vortragen.  Sehr bewährt hat sich die Arbeit mit Folien auf dem Tageslichtprojektor.

III.  Schlussbemerkung

Abschließend ist hervorzuheben, dass sowohl bei dem Versuch, den Schwierigkeitsgrad von Wörtern aufgrund von Vorkommenshäufigkeit im Corpus besser zu erfassen, als auch bei dem Versuch, die Abfragen im Wortschatz-Lexikon für die Wortschatzerweiterung einzusetzen, die autonome Lerntätigkeit und das Lernen im Team gefördert werden. 

Es bleibt zu wünschen, dass in den angesprochenen Arbeitsfeldern die methodischen Möglichkeiten weiter erkundet und entsprechende Vorschläge bzw. Ergebnisse von Unterrichtsversuchen Online verfügbar gemacht werden.

-----------------

(1) Neue Medien als Arbeitsinstrument der Linguistik

(2) Liste von Online-Wörterbüchern des Forschungszentrums Jülich

(3)  Das Wort "Corpus" kommt aus dem Lateinischen (Plural: Corpora) und bedeutet zunächst Körper.  

(4) Zur Frage der Verstehensprobleme vgl. Wolf Z. Bernstein, 
    "Die Komposition als Verständnisproblem im Leseunterricht"
     in:  Sprache und Literatur, Nr. 54, 1984,  S. 109 - 118.

(5) Ich danke Herrn Cyril Belica, dem Leiter der Arbeitsgruppe für Korpustechnologie Institut für Deutsche Sprache Mannheim,für folgenden Hinweis:
"Es darf hier nicht der Eindruck entstehen, als  würde ein Korpus keine ganzen Texte, sondern nur Einzelwörter
(evtl. mit Häufigkeitsangaben) enthalten. Das trifft  für die Korpora des Instituts für Deutsche Sprache in Mannheim - nicht zu. Bei diesen  Korpora handelt es sich um die  welt- weit größte deutschsprachige Sammlung von Volltexten für sprachwissenschaftliche Forschung (zur Zeit fast zwei Milliarden laufende Textwörter). Und natürlich sind diese Volltexte (bzw. der urheberrechtlich freie Teil davon) auch als Volltexte über das Recherchesystem COSMAS für die Öffentlichkeit verfügbar. Das heißt, dass in COSMAS die Kontexte genauso wie die Einzelwörter abgefragt und auch angezeigt werden können. Darüber hinaus können sie mit Hilfe einer On-the-fly-Kollokationsanalyse (mit einer
Reihe von einstellbaren Parametern) auf die in ihnen nach- weisbaren Regelmäßigkeiten des Sprachgebrauchs untersucht werden."

(6) Als Tool für solche Online-Übungen, die sowohl Lehrende  als auch Lernende selbst  erstellen können bietet sich  Hot Potatoes  an.  (Vgl. auch Liste mit Beispielen und weiterführenden Links

(7)  Ein Seite mit Links zur Korpus-Linguistik der Universitäts- und Landesbibliothek Düsseldorf

                     Zurück nach oben

                     Zurück zur Hauptseite