| Online-Recherche in Corpora
- Hinweise für DaF-Lehrer
und Studierende von DaF
G. Miklitz, Studienkolleg Bonn
(April 2002)
Mit dem schnellen Einzug der Neuen Medien in Hochschulen und Schulen ist die
Frage ihrer sinnvollen Einsatzmöglichkeiten kaum noch strittig.(1) Für die unterrichtspraktische Arbeit
in Deutsch als Fremdsprache ist der Gebrauch von
Online-Wörterbüchern für viele Lernende selbstverständlich.(2) Eine weitere Nachschlagemöglichkeit,
die das
besondere Interesse von Lehrenden und Lernenden weckt, ist die Online-Recherche in
Corpora.(3)
In der Sprachwissenschaft hat
sich unter den Begriffen Corpora und Korpus-Linguistik eine neue Arbeitsweise
zur Untersuchung authentischen Sprachmaterials auf der Basis maschinenlesbarer
Textsammlungen etabliert. In der Düsseldorfer
Virtuelle Bibliothek: Anglistik/Amerikanistik:
wird sie wie folgt charakterisiert:
| "Diese noch relativ neue Methode der modernen
Linguistik verwendet maschinenlesbare Textsammlungen mit authentischem
Sprachmaterial für Untersuchungen in bekannten Bereichen der
Linguistik: z.B. Grammatik, Syntax, Wortschatz oder Sprachwandel. Das
Material wird mit elektronischen Hilfsmitteln wie automatischen
Konkordanz-Programmen, Part-of-Speech-Taggern (Instrumenten zur
Wortartanalyse), Parsern (Instrumenten zur syntaktischen Analyse),
Statistik-Programmen o.ä. durchsucht und weiterbearbeitet,
aufbereitet und analysiert." (http://www.uni-duesseldorf.de/ulb/angkorp.html) |
Für unsere fremdsprachendidaktischen und unterrichtspraktischen Zwecke kommen
zur Zeit zwei Internet-Adressen mit Online-Recherchen in Betracht: Die Corpora des Mannheimer
Instituts für Deutsche Sprache und
des Wortschatz-Lexikons an der Universität Leipzig.
Im Folgenden wird über erste Erfahrungen mit der Nutzung
dieser Datenbanken bei der Arbeit im Bereich Deutsch als Fremdsprache
berichtet. Außerdem werden Vorschläge für die Verwendung von
Suchergebnissen im Unterricht gemacht.
I. Nutzung eines Corpus des Mannheimer Instituts für Deutsche Sprache
Das
Mannheimer Institut für Deutsche Sprache bietet einen WWW-Zugang zu einer
Reihe von Corpora an, die kostenlos recherchierbar sind.
Allerdings muss man sich vorher per e-Mail registrieren lassen.
Ein
besonders großes Korpus ist - nach der gleichnamigen
Tageszeitung - „Mannheimer
Morgen“:
|
„Das
Korpus beinhaltet eine außerordentlich große Menge von Zeitungsartikeln, die
in elektronischer Form vom Verlagshaus der Tageszeitung Mannheimer Morgen
bezogen wurde bzw. wird (ohne Anzeigenteil). Das gesamte Textmaterial wurde
bzw. wird im IDS vollautomatisch aufbereitet. Das Korpus ist ein sog.
Monitorkorpus, für das kennzeichnend ist, dass sich seine Zusammensetzung mit
der Zeit ändert, und zwar in diesem Fall durch regelmäßiges Hinzufügen von
Zeitungsartikeln jüngeren Datums.“ Anzahl Artikel: 360 Mill.
Anzahl
laufende Wortformen (ca.) 546 Mill.
|
.
Dieses
Corpus ist aufrufbar unter der Adresse: http://corpora.ids-mannheim.de/cosmas/
Unsere erste
Nutzung des genannten Corpus stand im
Zusammenhang mit der Frage des Schwierigkeitsgrades von Prüfungstexten.
Aus einem Sprachtest für die Aufnahme von Studienbewerbern in ein Studienkolleg
in Nordrhein-Westfalen wurde die folgende Liste von Komposita selektiert:
| Realschulabschluss,
Denkoperationen, Elektronengehirn, Wiedervereinigung,
Sportarten, Sommerspiel, Familienministerium, Bildungsniveau, Partnerschaft, Haushaltstechnik,
Elektroherd, Haushaltsgeräte, Heizungsanlage, Flugverkehr, Bildschirm. |
Wie schwer
sind diese Wörter für ausländische Deutschlerner?
Wenn man
die Wörter im Corpus "Mannheimer Morgen" durch eine Online-Abfrage
sucht, erhält man u. a. die Information, wie häufig das jeweilige Wort
im Corpus vorkommt. Ein Wort das selten vorkommt, ist vermutlich den
Lernern unbekannt.
Allerdings
ist zu bedenken: Das Verstehen von Wörtern, die ohne ihren Kontext dargeboten werden,
ist ein anderes
Verstehen als das Verstehen derselben Wörter im Textganzen. Deshalb kann man
nicht damit
rechnen, die Frage des Schwierigkeitsgrades mit einer solchen Abfrage
vollständig zu beantworten. Aber das Verstehen oder Nichtverstehen
solcher Einzelwörter, die nach aller Erfahrung als schwierig gelten wegen
ihrer Komplexität (Nominalkomposition als besonderes Phänomen des
Deutschen), kann doch wesentliche Anhaltspunkte für die umfassende
didaktische Einschätzung des Textes geben.(4)
Man ist zumindest überrascht, wenn
man seine ersten Vermutungen
darüber, welche Wörter wohl schwer und welche leicht sind, mit den Abfragergebnissen vergleicht. Dem
Leser möchten wir empfehlen, einen Selbsttest durchzuführen und vor dem
Weiterlesen die drei schwierigsten Wörter der obigen Komposita-Liste zu markieren.
Nachfolgend
geben wir die Liste der Wörter mit dem Ergebnis der Abfrage wieder. Die Zahlen
hinter den Wörtern bezeichnen die Häufigkeit des Wortes im Corpus.
Diese Vorkommenshäufigkeit im Corpus kann für
die Auswahl von Wörtern für Sprachtests und für Unterrichtstexte ein
Kriterium sein. Dabei ist natürlich zu bedenken, dass eine solche statistische Häufigkeitsanalyse nur
einen Aspekt der Textschwierigkeit beziehungsweise der Schwierigkeit
des darin enthaltenen Wortschatzes darstellt. Aber auf jeden Fall ist damit
zu rechnen, dass Wörter mit
extrem geringer Frequenz den Lernern auf mittlerem Niveau sehr
wahrscheinlich unbekannt sind.
Natürlich
wäre es noch praxisnäher, wenn man Wortschatzlisten oder ganze Texte in
einem Corpus überprüfen könnte, der die Summe aller einschlägigen
DaF-Lehrbücher der Grund- und Mittelstufe beinhalten würde. Nicht zuletzt
aus Urheberrechtsgründen steht ein solches Corpus der Öffentlichkeit noch
nicht zur Verfügung. (5)
In unserer Abfrage enthielt die Liste der überprüften Wörter aus dem erwähnten
SAP-Test folgende Komposita und Frequenzdaten:
| Realschulabschluss
21
Denkoperationen
0
Elektronengehirn
1
Wiedervereinigung
1014
Sportarten
542
Sommerspiel
104
Familienministerium
48
Bildungsniveau
21
Partnerschaft
2357
Haushaltstechnik
1
Elektroherd
32
Haushaltsgeräte
106
Heizungsanlage
67
Flugverkehr
233
Bildschirm
1512
|
Eine schriftliche Umfrage in zwei Deutsch-Kursen des
Studienkollegs Bonn ergab, dass genau die beiden Wörter mit den
niedrigsten Frequenzfaktoren von
den Studierenden als besonders schwer zu verstehen beziehungsweise als total
unbekannt bezeichnet wurden: "Denkoperationen" und
"Elektronengehirn".
Bei ersten Vermutungen über die
Reaktion der Studierenden hatte niemand damit gerechnet, dass gerade diese
beiden Komposita, die dem Muttersprachler als problemlos erscheinen,
für die Studierenden schwierig wären und dass gerade diese Wörter im
Corpus auch eine entsprechend minimale Vorkommenshäufigkeit haben würden.
Wegen ihrer geringen Vorkommenshäufigkeit waren sie den Studierenden
offenbar in noch keinem
Text begegnet.
Nach diesem
ersten Versuch wenden wir uns einer weiteren Online-Abfrage zu, wobei
die Frage gestellt wird, auf welche Weise das Wortschatz-Lernen
gefördert werden kann.
II.
Online-Abfrage im Wortschatz-Lexikon an der Universität Leipzig
An der Universität Leipzig gibt es das Projekt Wortschatz-Lexikon.
Es bietet Zugriff auf 6 Mio. Wörter und 15 Mio. Sätze. Für unsere
Fragestellung ist besonders interessant, dass dies Abfrageergebnisse
auch in sog.
Assoziationsnetzen dargestellt werden können. Diese graphischen Darstellungen
sind unter anderem eine nützliche Grundlage für das autonome Lernen zur
Wortschatzerweiterung und für die Entwicklung von
Übungen. Das soll an ein paar
Beispielen gezeigt werden
Zunächst eine kurze
Charakterisierung des Leipziger Projekts. Unter der Netzadresse http://wortschatz.uni-leipzig.de findet man folgende Beschreibung:
|
„Das Wortschatz-Lexikon) ist
ein Vollformenlexikon des Deutschen und verfügt derzeit über mehr als fünf
Millionen Vollformen mit einer je unterschiedlichen Anzahl zusätzlicher
Angaben.
Es ist aus einer Vielzahl unterschiedlicher Quellen aufgebaut, wobei
quantitativ der Volltext mehrerer Tageszeitungen im Vordergrund steht; darüber
hinaus gehen aber auch Fachlexika, Fachzeitschriften und Monographien aus
unterschiedlichen Wissensgebieten (u. a. Medizin, Rechtswissenschaft, Informatik)
in den Datenbestand ein."
|
Um den Studierenden zu zeigen, welche Informationen bei
einer Online-Abfrage ausgegeben werden, wählten wir zunächst ein einfaches
und bekanntes Verb aus:
studieren.
Das erbrachte folgendes Ergebnis (Auszug):
|
Wort: studieren
Anzahl: 3482
Häufigkeitsklasse: 11 (d.h. der ist ca. 2^11 mal häufiger als
das gesuchte Wort)
|
Morphologie:
|
studi|e|ren
|
|
Grammatikangaben:
|
|
|
Wortart: Verb
|
|
|
|
transitiv
|
|
|
intransitiv
|
|
|
lautet nicht ab
|
|
|
Partizip II mit haben
|
|
|
|
Relationen zu anderen Wörtern:
- Synonyme:
aneignen, anlernen, anlesen, auslesen, büffeln, durcharbeiten, durchlesen, einpauken, einprägen, einüben, erlernen, erwerben, lernen, lesen, memorieren, pauken, schmökern
- vergleiche:
forschen, hören, lernen
- ist
Synonym von: analysieren, anblicken, aneignen, angaffen, anlesen, anschauen, ansehen, anstarren, anstieren, einstudieren, erlernen, erwerben, lernen, lernen, lesen, memorieren, schmökern, stucken, verschlingen
- wird
referenziert von: erforschen, lernen, memorieren, üben
- Beispiel(e):
Sie hatten den Sommer über Zeit, sich vorzubereiten und
die Dossiers zu studieren. (Quelle: Welt 1999)
Mit 19 Jahren ging die Künstlerin in die USA, um Musik
zu studieren. (Quelle: Welt 1999)
Schon als Neunjährige durfte sie an der Münchner
Musikhochschule bei Ana Chumachenko studieren. (Quelle: Welt
1999
|
Die
so erhaltene Information ist weitgehend selbsterklärend. Eine Ausnahme
ist die Information zur Frequenz: "Häufigkeitsklasse:
11 (d.h. der ist ca. 2^11 mal häufiger als
das gesuchte Wort)". Der Häufigkeitsindex 11 bedeutet hier,
dass das Wort "der" (das am häufigsten im Corpus vorkommende Wort) zwei hoch
elf mal häufiger vorkommt als das Suchwort "studieren".
Die
Informationen über Relationen zu anderen Wörtern eignen sich gut für die
Bedeutungserschließung des Wortes, z. B. für einen Tafelanschrieb und für
Übungen zur Wortschatzerweiterung. (6)
Besonders
für das Online-Lernen ergeben sich neue Möglichkeiten, da die
Wörter der Kollokationsliste einzeln aufgerufen werden können.
- Signifikante Kollokationen für studieren:
- Studenten
(256), Abitur
(230), Jura
(178), Medizin
(174), Universität
(150), Semester
(120), wollte
(104), begann
(96), Fach
(93), Theologie
(80), Betriebswirtschaft
(74), Germanistik
(74), Mathematik
(69), durfte
(69), Abiturienten
(68), Hochschulen
(68), Hochschule
(66), Philosophie
(66), Wer
(65), wollen
(64), möchte
(61), läßt
(59), Physik
(52), Universitäten
(51), konnte
(48), Studium
(46), genau
(46), Ausland
(45), Stipendium
(43), Geschichte
(42), Fachhochschule
(41), Fächer
(40), junge
(39), arbeiten
(38), Chemie
(34), Uni
(33), dort
(33), sollte
(33), Ausbildung
(31), Informatik
(31), Wintersemester
(29), An
(28), BWL
(28), Sohn
(27), anfing
(27), Forscher
(26), Maschinenbau
(26), Elektrotechnik
(25), Eltern
(25), Architektur
(24), Kunstgeschichte
(24), Lehramt
(24), Mathe
(24), Wirtschaftswissenschaften
(24), Leute
(23), Malerei
(23), Student
(23), ging
(23), Hochschüler
(22), Kommilitonen
(22), Semestern
(22), Anglistik
(21), Beruf
(21), Soziologie
(21), genauer
(21), hier
(21), Ingenieurwissenschaften
(20), Musik
(20), Paris
(20), Zeit
(20), wer
(20), Eigentlich
(19), Hauptfach
(19), Psychologie
(19), Unis
(19), einmal
(19), lieber
(19), BAföG
(18), Harvard
(18), Hebräisch
(18)
Nehmen wir an, es werden passende Verben für "Stipendium" und
"Abitur" gesucht. Durch einen Klick auf das entsprechende Wort
erhält man eine neue Kollokationsliste und findet unter dem Abschnitt für
die rechts neben dem Suchwort vorkommenden Wörter eine Reihe von Verben, die
häufig mit dem Wort gebraucht werden.
- Signifikante rechte Nachbarn von studieren:
- wollen
(61), möchte
(48), konnte
(26), wollte
(21), durfte
(20), anfing
(14), lassen
(12), dürfen
(11), wollten
(9), Kati
Winkler (8), begann
(8), möchten
(8), darf
(7), könnten
(7), lässt
(7), wolle
(7), konnten
(6), läßt
(6), sollte
(6), Wirtschaftswissenschaften
(5), angehende
(5), derzeit
(5), solle
(5), Jura
(4), beide
(4), inzwischen
(4), durften
(3), könne
(3), lohnt
(3)
Aufgabenvorschläge:
Der
Lerner kann online seine Vokabelkenntnisse in bestimmten Wortfeldern
überprüfen, wenn er zum Beispiel die Aufgabe hat, die Bedeutung
aller Wörter ab einem bestimmten Frequenzwert anzugeben.
Er kann auch
gebeten werden, eine bestimmte Auswahl von Wörtern vorzunehmen, diese
in die Zwischenablage zu kopieren und sie mit einem Textverarbeitungsprogramm
(z.B. Word) weiter zu bearbeiten. Als Aufgabe bietet sich sodann das Bilden von
Sätzen an. Es kann auch die Aufgabe gestellt werden, die
gefundenen und kopierten Wörter mit einem Lernpartner in einen kurzen Dialog
einzubauen.
Darüber
hinaus kann eine graphische Darstellung der statistisch relevanten
Kollokationen ausgegeben werden. Man erhält zum Beispiel für das Wort
"studieren" das folgende Assoziationsdiagramm.
("Die Daten werden aus öffentlich zugänglichen
Quellen automatisch erhoben. Die Kollokationen sind sorgfältig ermittelte
Begriffe, die statistisch signifikant mit dem Ausgangsbegriff gemeinsam
auftreten. Aus dem gemeinsamen Auftreten von Begriffen können keine Rückschlüsse
über die Art eines eventuellen inhaltlichen Zusammenhangs abgeleitet werden."
- Copyright 2001 Deutscher Wortschatz.)
Eine reizvolle Aufgabenstellung mit gruppendynamischem Effekt ist folgende:
Jeder Lerner bekommt ein Wort aus dem Diagramm zugeordnet. Jeder soll
nun für "sein" Wort eine Online-Abfrage durchführen und das Ergebnis mit
dem Ergebnis eines anderen Lerners im Team vergleichen, wobei dessen Abfrage-Wort mit seinem Wort
einen gemeinsamen Knoten haben soll. So finden sich neue Lernpartner, die eine
gemeinsame Aufgabe bearbeiten und das Ergebnis in der Gruppe vortragen.
Sehr bewährt hat sich die Arbeit mit Folien auf dem Tageslichtprojektor.
III. Schlussbemerkung
Abschließend ist hervorzuheben, dass sowohl bei dem Versuch, den
Schwierigkeitsgrad von Wörtern aufgrund von Vorkommenshäufigkeit im Corpus
besser zu erfassen, als auch bei dem Versuch, die Abfragen im Wortschatz-Lexikon für
die Wortschatzerweiterung einzusetzen, die autonome Lerntätigkeit und das
Lernen im Team gefördert werden.
Es bleibt zu wünschen, dass in den
angesprochenen Arbeitsfeldern die methodischen Möglichkeiten weiter erkundet und
entsprechende Vorschläge bzw. Ergebnisse von Unterrichtsversuchen Online verfügbar gemacht werden.
-----------------
(1) Neue Medien als Arbeitsinstrument der Linguistik
(2) Liste
von Online-Wörterbüchern des Forschungszentrums Jülich
(3)
Das Wort "Corpus" kommt aus dem Lateinischen (Plural: Corpora) und
bedeutet zunächst Körper.
(4)
Zur Frage der Verstehensprobleme vgl. Wolf Z. Bernstein,
"Die Komposition
als Verständnisproblem im Leseunterricht"
in: Sprache und Literatur, Nr. 54, 1984, S. 109 - 118.
(5) Ich danke
Herrn Cyril Belica, dem Leiter der Arbeitsgruppe für Korpustechnologie
Institut für Deutsche Sprache Mannheim,für folgenden Hinweis:
"Es darf hier nicht der Eindruck entstehen, als würde ein Korpus
keine ganzen Texte, sondern nur Einzelwörter
(evtl. mit Häufigkeitsangaben) enthalten. Das trifft für die Korpora
des Instituts für Deutsche Sprache in Mannheim - nicht zu. Bei diesen
Korpora handelt es sich um die welt- weit größte deutschsprachige
Sammlung von Volltexten für sprachwissenschaftliche Forschung (zur Zeit fast
zwei Milliarden laufende Textwörter). Und natürlich sind diese Volltexte
(bzw. der urheberrechtlich freie Teil davon) auch als Volltexte über das
Recherchesystem COSMAS für die Öffentlichkeit verfügbar. Das heißt, dass
in COSMAS die Kontexte genauso wie die Einzelwörter abgefragt und auch
angezeigt werden können. Darüber hinaus können sie mit Hilfe einer
On-the-fly-Kollokationsanalyse (mit einer
Reihe von einstellbaren Parametern) auf die in ihnen nach- weisbaren Regelmäßigkeiten
des Sprachgebrauchs untersucht werden."
(6) Als Tool für solche Online-Übungen, die sowohl Lehrende
als auch
Lernende selbst erstellen können bietet sich Hot
Potatoes an. (Vgl. auch Liste
mit Beispielen und weiterführenden Links)
(7) Ein
Seite mit Links zur Korpus-Linguistik der Universitäts- und Landesbibliothek
Düsseldorf
Zurück nach
oben
|