WWW.ABSTRACT.XLIBX.INFO
FREE ELECTRONIC LIBRARY - Abstract, dissertation, book
 
<< HOME
CONTACTS



«Affixerkennung in deutschen Wortformen Ein nicht-lexikalisches Segmentierungsverfahren nach N. D. Andreev Oliver Cromm Universität Göttingen ...»

Fachbeiträge

Affixerkennung in

deutschen Wortformen

Ein nicht-lexikalisches Segmentierungsverfahren nach N. D. Andreev

Oliver Cromm

Universität Göttingen

e-mail: ocromm@gwdg.de

24. März 1997

A non-lexical statistical method for affix recognition within a corpus

— developed by N. D. Andreev ([1], [2]) in the early 60’s — is applied to German texts. The algorithm was designed to identify inflectional as well as derivational paradigms in any language, using

both statistical overrepresentation of letter sequences and combinatorial systematicity as a measure for the reliability of segmentation.

By testing this method on smaller samples, the influence of several parameters is investigated and the most suitable values are selected.

The resulting algorithm is then applied to a bigger corpus, the insuing results are analysed both quantitatively and qualitatively. These display quite good recall rates but reveal some problems due to certain characteristics of German.

LDV-Forum Bd. 14, Nr. 2, Jg. 1997 FACHBEITRÄGE 5 1 Überblick

1.1 Grundlegender Ansatz Das Verfahren von Andreev sucht Affixe am Beginn und Ende von Wörtern. In seiner reinsten Form, wie sie hier untersucht wird, benutzt es keinerlei syntaktische oder semantische Information, sondern berücksichtigt ausschließlich Abweichungen von der Gleichverteilung der Buchstaben, nach Harris eine der wichtigsten Grundlage einer Sprachtheorie [5]. Der Erkennungsprozeß beginnt damit, nach überrepräsentierten Buchstaben im Anfangs- und Endbereich der längeren Wörter eines Korpus zu suchen, im Deutschen z. B. e an vorletzter Wortposition.

Deren Nachbarbuchstaben werden daraufhin untersucht, ob gewisse Kombinationen auffällig häufiger auftreten als im Falle ihrer Unabhängigkeit zu erwarten, im Beispiel etwa die Endungen -en, -er, aber auch -ten. Diese werden zu mutmaßlichen Affixen erklärt, sofern sie gewisse formale und statistische Bedingungen erfüllen. Diese Affixe wiederum werden, wenn möglich, zu Paradigmen von Stämmen und Affixen erweitert. Nur wenn ein Paradigma gefunden wird, werden die Morphemgrenzen akzeptiert.

Es werden Kriterien gegeben, um Muster agglutinierenden Typs zu erkennen (wobei dann auch nach weiteren Affixen am selben Wort gesucht wird) und zwischen Flexion und Derivation zu unterscheiden.

Wie alle Methoden, die auf der Kookkurrenz benachbarter Buchstaben beruhen, steht das Andreev-Verfahren in der Tradition von Harris’ Ansatz zur Morphgrenzenerkennung [4].

1.2 Einschränkungen dieses Ansatzes Die Methode setzt Input mit gegebenen Wortgrenzen voraus. Um Sprachen ohne Markierung von Wortgrenzen oder gesprochenen Input zu behandeln, muß sie modifiziert oder mit einem eigenen Algorithmus zur Wortgrenzenerkennung kombiniert werden. Die Identifikation beschränkt sich auf identische Muster nur an Wortgrenzen. Daraus resultieren Schwierigkeiten beim Erkennen von Infixen,

LDV-Forum Bd. 14, Nr. 2, Jg. 1997 FACHBEITRÄGE

mehrfachen gegenseitig abhängigen Affixen, Reduplikation, nicht-zusammenhängenden Morphemen wie z. B. bestimmten Vokalfolgen in den semitischen Sprachen oder nicht-konkatenativer Morphologie wie bei Umlautphänomenen.

Das Verfahren funktioniert am besten beim Auffinden von item-and-arrangement-Strukturen, wie sie für agglutinierende Konstruktionen besonders typisch sind.

2 Mögliche Anwendung Die Arbeit des Algorithmus beschränkt sich auf die Erkennung von Flexions- und Derivationsaffixen. Darüber hinaus sind, wie bei jeder statistischen Methode, die Recall- und Precision-Raten begrenzt; daher ist das System nicht direkt verwendbar, um alle Morphemgrenzen eines bestimmten Typs aufzufinden.

Andererseits könnte es Hinweise darauf geben, ob bestimmte Modelle der menschlichen Sprachverarbeitung und des Spracherwerbs realistisch sind (vgl.

etwa [3], [6]), und es könnte bei der Segmentierung und dadurch bei der Dechiffrierung einer unbekannten Sprache Anwendung finden.

3 Das Verfahren im einzelnen

Unter Auslassung technischer Details funktioniert der Algorithmus folgendermaßen:

1. Zunächst wird fortlaufender Text in eine Liste von Wörtern und ihren Häufigkeiten transformiert.

2. Nur Wörter ab einer bestimmten Mindestlänge werden als möglicherweise affixbehaftet in Betracht gezogen.

3. Für eine gewisse Anzahl initialer und finaler Wortpositionen werden die höherfrequenten Buchstaben untersucht, beginnend bei den am stärksten überrepräsentierten.

4. Diese Buchstaben werden sukzessive mit geeigneten Nachbarn verkettet, bis die Kette den Wortrand und die erwartete minimale Affixlänge erreicht.

LDV-Forum Bd. 14, Nr. 2, Jg. 1997 FACHBEITRÄGE 7

5. Das „Affix“ wird probeweise abgeschnitten, es wird nach Kombinationen der resultierenden „Stämme“ mit anderen „Affixen“ gesucht.

6. Die letzten Schritte werden wiederholt, bis keine weiteren Affixe akzeptiert werden können.

7. Schließlich wird getestet, ob die Morphemgrenze nach links oder rechts verschoben werden sollte und ob es sich um ein Paradigma agglutinierenden Typs handelt.

Bei jedem dieser Schritte müssen gewisse statistische Kriterien erfüllt sein, damit die Arbeit des Algorithmus fortgesetzt wird.





Wenn ein Paradigma, ein morphologischer Typ gefunden wurde, werden seine Mitglieder aus der Liste aller Wörter entfernt (im agglutinierenden Fall nur die affixbehafteten Formen).

In der Originalarbeit von Andreev wird die weitere Bearbeitung des Textes nur mit den Nachbarn der vorher erkannten Wörter fortgesetzt, das heißt, syntaktische Information wird eingebracht. In der vorliegenden Arbeit beginnt die nächste Runde wieder mit der reinen, nur um die bisher analysierten Formen verminderten Wortliste.

Man kann, wenn alle morphologischen Typen gefunden sind, diejenigen mit ähnlichen (syntaktischen) Eigenschaften zu Wortklassen, wie Substantiven, Adjektiven und Verben, zusammenfassen. Da hier keine syntaktische Information benutzt wird, kommt eine Zusammenfassung nicht in Betracht.

4 Einstellung der Parameterwerte Die Methode benutzt zahlreiche Parameter, deren Werte in den vorliegenden Arbeiten von Andreev nicht näher motiviert werden. Daher wurden Testläufe mit unterschiedlichen Parameter-Einstellungen auf Beispieltexten aus der Bibel und aus Computerforen durchgeführt. Die Bibelpassagen lieferten weit bessere Resultate, da sie sprachlich einheitlicher sind und viel weniger Tippfehler und ähnliche Quellen von Rauschen enthalten.

LDV-Forum Bd. 14, Nr. 2, Jg. 1997 FACHBEITRÄGE

Der Einfluß von Parametern wurde untersucht, darunter • die Anzahl der untersuchten Wortpositionen, • die minimale Häufigkeit von Buchstaben, die in Betracht gezogen werden, • deren minimaler Grad der Überrepräsentation, • die minimale Rate der Kookkurrenz benachbarter Buchstaben, damit sie als Teil eines Affixes betrachtet werden.

Es stellte sich heraus, daß einige Parameter weit großzügiger gewählt werden können als von Andreev vorgeschlagen, d. h. so, daß wesentlich mehr Buchstaben und -kombinationen in Betracht gezogen werden. Dies führt zu größerem Recall ohne großen Verlust von Precision. Daß Andreev die Anforderungen eher hoch wählte, mag darin begründet liegen, daß zu seiner Zeit die Computer-Ressourcen sehr beschränkt waren, und die großzügigere Wahl der Parameter zu weit höherem Rechenaufwand führt. Tatsächlich wurden viele Ergebnisse in Andreevs Gruppe von Hand ermittelt. Im Gegensatz dazu wurden die hier vorgestellten Ergebnisse weitgehend automatisch auf einem kleinen Rechner erreicht.

Darüber hinaus dienen viele dieser Parameter dazu, mit einer hohen Wahrscheinlichkeit sicherzustellen, daß die in der Stichprobe gefundenen Abweichungen von der Gleichverteilung nicht zufällig sind, sondern Ausdruck einer Gesetzmäßigkeit. Diese Wahrscheinlichkeit steigt entsprechend dem statistischen Gesetz der großen Zahl bei gleicher Parametereinstellung auch mit der Stichprobengröße, daher kann man in größeren Stichproben wiederum geringere Abweichungen bereits als signifikant betrachten.

5 Ergebnisse in der Praxis Die Methode mit den ermittelten optimalen Parametereinstellungen wurde auf den gesamten Text der Bibel angewendet. Die Bibel ist ein relativ freundliches Korpus, da sie ein begrenztes Vokabular mit wenigen Fremd- und sogar Lehnwörtern benutzt. Das Korpus umfaßt insgesamt 4.652.726 Bytes.

Die morphologischen Grenzen, die der Algorithmus ermittelte, wurden mit Morphemgrenzen verglichen, die vom Autor für jeden Wort-Type, ohne Berück

<

LDV-Forum Bd. 14, Nr. 2, Jg. 1997 FACHBEITRÄGE 9

sichtigung des Kontextes, intellektuell markiert wurden. Im Falle von Homonymie wurde ein Wort als flektiert betrachtet. Diese Vorgehensweise erscheint gerechtfertigt, da einerseits die statistische Methode ebensowenig zwischen homonymen Wörtern unterscheiden kann, andererseits auf diese Weise die Recall-Werte nur schlechter werden können, nicht besser.

Detaillierte quantitative Ergebnisse enthält die Tabelle 1, einen Überblick die Tabelle 2.

Das Ziel war, Flexionsparadigmen zu finden, nicht Derivationen. Daher bezeichnet der Recall den Anteil der intellektuell markierten Flexionsaffixe, die auch vom Algorithmus markiert wurden, die Precision den Anteil der vom Computer ausgegebenen Affixe, die nach menschlichem Urteil Flexionsaffixe darstellen.

Der Recall beträgt, in Types ausgedrückt, 42,4%, die Precision 89,6%. In Tokens gerechnet haben wir einen Recall von 73,8% und eine Precision von 96,4%.

5.2 Auswertung der Ergebnisse Die statistische Natur des Algorithmus ergibt bessere Recall- und PrecisionWerte bei hochfrequenten Wörtern. Dies ist der Grund für den großen Unterschied zwischen den Ergebnissen in Types und Tokens. Man vergleiche dazu bei den Wörtern mit Flexionsaffix die mittlere Häufigkeit der vom Algorithmus richtig identifizierten (25,4) mit derjenigen der nicht identifizierten (5,6), ersichtlich aus Tabelle 1.

Einige Besonderheiten der deutschen Sprache führen zu Fehlern. Diese sollen qualitativ analysiert werden.

1. Einige hochfrequente Stämme sind zu kurz, um vom Algorithmus in Betracht gezogen zu werden. Alleine das Wort ein-e ist für 17% aller fälschlich als nicht affixbehaftete Form (also als mutmaßlicher Stamm) erkannten Tokens verantwortlich.

2. Besonders Verben erscheinen oft mit verschiedenen Wortbildungspräfixen. Diese Kombinationen sind so vielfältig, daß sie leicht als Flexion mißinterpretiert werden können. So findet ein Testlauf des Algorithmus als 16. Paradigma die Stämme

–  –  –

Verbparadigmen gemeinsam anzutreffen. Viele Suffixe bestehen zudem aus hochfrequenten Buchstaben, die auch am Ende von Stämmen häufig sind. Das führt zu einer Vermischung solcher Fälle mit Stämmen, die nur mit unvollständigem Paradigma im Korpus vorkommen, und dadurch zu vereinzelten willkürlichen Morphemgrenzen, deren Zahl im Test allerdings gering bleibt (s. Tabelle 1).

5. Stammumlaut ist ein häufiges Phänomen in deutschen Flexionsparadigmen. Dies führt im besten Fall zu einer Aufspaltung der beteiligten Paradigmen, ansonsten zur Nichterkennung der umgelauteten Formen.

Zieht man diese Tücken in Betracht, so erscheint die Zahl der korrekt identifizierten Wortformen mit Flexionsaffix von rund drei Viertel aller Tokens beeindrukkend, wenn auch nicht ausreichend für praktische Anwendungen. Überdies kann man mit wachsender Korpusgröße auch ein weiteres Ansteigen dieser Rate erwarten.

6 Erweiterungsmöglichkeiten Interessant wäre, das Verfahren auf phonematisch statt graphematisch transkribiertem Text zu testen. Dies könnte eine größere Regelhaftigkeit aufdecken, andererseits könnten aber auch gewisse Verallgemeinerungen verlorengehen, da die deutsche Orthographie teils grammatikalisch motiviert ist.

Die Voraussetzungen des Verfahrens sind sehr restriktiv. Es könnte in Richtung einer flexibleren Mustererkennung erweitert werden, um den Suchbereich auf Infixe und nicht-zusammenhängende Morpheme zu erweitern. Möglicherweise könnten statt buchstäblich übereinstimmenden Mustern ähnliche gesucht werden, obwohl fraglich ist, ob Ähnlichkeit von Morphen angemessen definiert werden kann, zumal einzelsprachunabhängig.

–  –  –

Statt das Verfahren zu ändern, damit es klassischen Definitionen von Morphemgrenzen entspricht, könnte man auch eine empirischere, mehr naturwissenschaftliche Sichtweise von Sprache einnehmen und es selbst als Definition solcher Grenzen ansetzen.

Literatur [1] Andreev, Nikolaj D. (ed.): Statistiko-kombinatornoe modelirovanie jazykov, Moskau/Leningrad 1965 [2] Andreev, Nikolaj D.: Statistiko-kombinatornye metody v teoreticeskom i prikladnom jazykovedenii, Leningrad 1967 [3] Bybee, Joan L.: Morphology as Lexical Organization. In: Hammond, Michael/Noonan, Michael (ed.): Theoretical Morphology. Approaches in Modern Linguistics, San Diego 1988 [4] Harris, Zellig: From phoneme to morpheme. Language 31 (2), 1955, p. 190— [5] Harris, Zellig: A Theory of Language and Information. Oxford 1991 [6] MacWhinney, B. (ed.): Mechanisms of Language Acquisition, Hillsdale, N. J. 1987 LDV-Forum Bd. 14, Nr. 2, Jg. 1997





Similar works:

«santander net santander net Der Santander BestCredit santander.de Im Vergleich einfach unschlagbar: der Santander BestCredit online! Santander Kredit | iZito.de Such santander kredit Ergebnisse von 6 Suchmaschinen! Santander Bankangebote Die besten Bankangebote. Die besten Bankangebote. Jetzt Kredite vergleichen Geld sparen ! OnlineBanking Online-Banking bei der Santander Bank -Mit PIN/TANund Chipkarten Verfahren sowohl flexibel, als auch sicher. BANCO SANTANDER CENTRAL HISPANO AKTIE |...»

«ISSN 2227-149X ФАНО России Российская академия наук Дальневосточное отделение Дальневосточный морской заповедник BIODIVERSITY AND ENVIRONMENT OF FAR EAST RESERVES *** БИОТА И СРЕДА ЗАПОВЕДНИКОВ ДАЛЬНЕГО ВОСТОКА №5 Владивосток 2015. №5 СОДЕРЖАНИЕ CONTENTS Ю.Н. Глущенко, Д.В. Коробов. Первый в России случай...»

«3rd Annual International Conference on Chemistry & Physics, 20-23 July 2015, Athens, Greece: Abstract 2015 Book Chemistry & Physics Abstracts Third Annual International Conference on Chemistry & Physics 20-23 July 2015, Athens, Greece Edited by Gregory T. Papanikos THE ATHENS INSTITUTE FOR EDUCATION AND RESEARCH 3rd Annual International Conference on Chemistry & Physics, 20-23 July 2015, Athens, Greece: Abstract Book 3rd Annual International Conference on Chemistry & Physics, 20-23 July 2015,...»

«1 Online language learning resources Here are a selection of free online language learning resources to help you get started learning the language of the country you have chosen for your exchange semester or dual degree year. French Portuguese Italian Dutch Danish Arabic Russian Chinese Japanese General language learning resources French Level BBC French http://www.bbc.co.uk/languages/french/ A1-B2 A great selection of online resources particularly suitable for beginners including online...»

«Halbzeitbewertung Maßnahmenund Entwicklungsplan Ländlicher Raum Baden-Württemberg 2007 2013 (MEPL II)“ nach der VO (EG) 1698/2005 Frankfurt am Main, den 20. Dezember 2010 Halbzeitbewertung Maßnahmenund Entwicklungsplan Ländlicher Raum Baden-Württemberg 2007 2013 (MEPL II)“ nach der VO (EG) 1698/2005 Auftraggeber Ministerium für Ernährung und Ländlichen Raum Baden Württemberg Ansprechpartner: Herr Hans-Peter Riedlberger Kernerplatz 10 70182 Stuttgart Hauptauftragnehmer: Institut...»

«Beurteilung der Rechenmethode der KEK zur Bestimmung von Meinungsmacht als Grundlage für die Ablehnung der Übernahme der ProSiebenSat.1 Media AG durch die Axel Springer AG Gutachterliche Stellungnahme erstellt durch TNS Infratest GmbH MediaResearch im Auftrag der Bayerischen Landeszentrale für neue Medien München, 25. Januar 2006 GutachtenKEK.doc Inhaltsverzeichnis 1 Ausgangslage und Aufgabenstellung 2 Definition der Messgröße Marktanteil 3 Von der KEK berücksichtigte Märkte 3.1...»

«„Optimierung, Konsolidierung und Anreicherung einer Terminologiedatenbank für das TermTerm-Projekt“ Masterarbeit im Studiengang Terminologie und Sprachtechnologie angefertigt an der Fachhochschule Köln-Institut für Translation und Mehrsprachige Kommunikation Betreuer: Prof. Dr. Klaus-Dirk Schmitz vorgelegt von: Matilda-Iuliana Soare Matrikelnummer: 11078537 Datum der Abgabe: 18.12.2012 Inhaltsverzeichnis 0 Einleitung 1 Über das Projekt TermTerm 1.1 Beteiligte 1.2 Datenbestände 2...»

«ТРУДЫ ПРОФЕССОРСКО-ПРЕПОДАВАТЕЛЬСКОГО СОСТАВА 1. Analele Stiintifice ale Universitatii Cooperatist-Comerciale din Moldova: научные анналы / И. А. Жебелева [и др.] ; МОЛДКООП, Кооперативно-торговый ун-т Молдовы. Chisinau : CEP USM, 2008. 442 с.2. Spoleczno-ekonomiczne problemy transformacji w Europie Srodkowej i Wschodniej [Warszawa ; Kijow ; Moskwa : [б. и.], 2010. 460 с. 3....»

«ADRODDIAD BLYNYDDOL / ANNUAL REPORT 1958-59 WINIFRED COOMBE TENNANT (`MAM O NEDD') Ffynhonnell / Source The late Mrs Winifred Coombe Tennant ('Mam o Nedd'), London. Blwyddyn / Year Adroddiad Blynyddol / Annual Report 1958-59 Disgrifiad / Description A collection of manuscripts, press cuttings, printed books, and photographs relating mainly to 'Gorsedd y Beirdd' and to the National Eisteddfod of Wales, covering 1917-55. There are a large number of letters to and from Mrs. Coombe Tennant (who was...»

«Academic Council Meeting No. 138 June 20th 2014 (AC:DOC:138:17:01) New Programmes 2013-2014 School: Informatics and Creative Arts Department: Section of Creative Media Programme Title NFQ Award Type Award Class ECTS Exit Parent Programme Approval Status Level Credits Award Bachelor of Arts (Honours) in Film and 8 Honours Bachelor Degree Major 240 N Accredited for 5 years Television Production Bachelor of Arts in Film and Television 7 Ordinary Bachelor Degree Major 180 Y Bachelor of Arts...»

«Romantic European Nostalgia: Japanese 'Gosurori' Fashion Noriko Onohara Abstract This paper will introduce and detail a current Japanese fashion style called Gosurori (Gosufrom Gothic and -rori from Lolita), and it will be distinguished from a more general and seemingly similar, though quite different, fashion trend called cosupurei (or cosplay, costume play). Gosurori fashion seems to be a chaotic style, with dark Gothic clothing, accessories, and makeup mixed together with the cute looks of a...»

«YORKSHIRE 2013 EVENTS PROGRAMME AND PRESS PACK Calendar of dates for the diary from English Heritage’s Yorkshire region, 2013 CONTENTS PAGE 3 INTRODUCTION PAGE 4 REGIONAL MAP OF SITES PAGE 5 NEWS RELEASES Bumper season of events and activities for English Heritage in Yorkshire Easter family fun with English Heritage in Yorkshire The Easter chicks are all grown up at Rievaulx Abbey Whitby Abbey – the ‘home of Easter’ Recreating the Second World War at Brodsworth Hall & Gardens Path to...»





 
<<  HOME   |    CONTACTS
2016 www.abstract.xlibx.info - Free e-library - Abstract, dissertation, book

Materials of this site are available for review, all rights belong to their respective owners.
If you do not agree with the fact that your material is placed on this site, please, email us, we will within 1-2 business days delete him.