A6 – Computerlexikographie

Dozenten:

Der EMLex bietet ein breites Spektrum an Dozenten aus aller Welt. Die Dozenten dieses Moduls sind:

Prof. Dr. Stefan Evert

Friedrich-Alexander-Universität Erlangen-Nürnberg

Prof. Dr. Ulrich Heid

Universität Hildesheim

Dr. Besim Kabashi

Friedrich-Alexander-Universität Erlangen-Nürnberg

 

Kursinhalte:

Themen dieses Moduls sind:

  1. Grundlagen der Korpuslinguistik
    • Ansätze und Methoden zur Auswertung von Korpora
    • Lexikographische Anwendungen von Korpusdaten
    • Korpus-Typologie, Übersicht über verfügbare Korpora
    • Korpusdesign, Repräsentativität, Textquellen, Metadaten
  2. Erstellen von Korpora
    • Korpuserstellung aus Online-Quellen per Web-Scraping etc.
    • Bereinigung und Normalisierung, Gewinnung von Metadaten
    • Repräsentations-und Austauschformate (Standards)
    • Online-und Offline-Werkzeuge für Web-Scraping etc.
    • Automatische linguistische Annotation (Wortarten (POS), Lemmatisierung, Eigennamenerkennung, syntaktische Analyse etc.)
    • Online-und Offline-Werkzeuge für die automatische linguistische Annotation
  3. Suche in Korpora
    • Reguläre Ausdrücke
    • Zeichenkodierung, Unicode-Standard
    • CQP-Anfragesprache zur Suche nach lexikogrammatischen Mustern
    • praktische Übungen mit Sketch Engine und CQP Web
  4. Quantitative Analyse
    • Häufigkeitslisten und Metadaten-Verteilung
    • Kollokationen und Word Sketches
    • Keyword-Analyse
    • Lexikographische Interpretation der Ergebnisse
    • Grundprinzipien der statistischen Inferenz
  5. Reproduzierbarkeit
    • Forschungsmethodik und Dokumentation
    • Datenmanagement, Nachhaltigkeit von Korpora und Ergebnissen

Für weitere Informationen siehe die Modulbeschreibung.

 

Allgemeine Informationen:

Zeitraum
22.03-26.03
Raum via Zoom
Prüfungsleistungen Teilnahme an einem Teamprojekt und Verfassen eines Berichts (die Teams werden zu Beginn des Moduls festgelegt)
Unterrichtssprache Deutsch und Englisch

 

Informationen zur EMLex-Sommerschule 2021:

Durchführung: Die Sommerschulteilnehmer erhalten rechtzeitig vorher per Mail einen Seminarplan, die relevante Fachliteratur und Hinweise zur Vorbereitung auf den Kurs auf der Moodle-Plattform. Die Sitzungen werden durch Dozent und den jeweiligen Gastdozenten geleitet. Zentraler Bestandteil des Unterrichts sind praktische Übungen am Computer, die in den Teams durchgeführt werden sollen (Hinweise dazu werden vorher ausgegeben).

 

Zertifikate: Es sind zwei Arten von Teilnahmenzertifikaten für die EMLex-Sommerschule möglich – (a) ohne Note: aktive Beteiligung an den praktischen Übungen, Diskussionen und ein Teamprojekt sowie (b) mit Note: Teilnahme an einem Teamprojekt nebst schriftlichem Bericht; die Teams werden zu Beginn des Moduls festgelegt.

 

Stundenplan:

Zeit/Tag Montag Dienstag Mittwoch Donnerstag Freitag
9:00-10:30 Welcome & Introduction
(all)
Presentation of project ideas + corpus design with discussion

(all)

Linguistic annotation & pre-processing (Heid) Corpus search with CQP queries
(Heid/Kabashi)
Final team presentations and discussion (all)
11:00-12:30 Lexicography and text corpora, Corpus design (Heid) Collecting corpus data from the Web (Evert/Kabashi) Representation formats, practice with SketchEngine (Evert/Kabashi) Frequencies, collocations, and keywords (Evert) Final team presentations and discussion (all)
Mittagspause
14:00-15:30 Form teams and discuss projects (Kabashi/Evert) Collecting corpus data from the Web Group work on team projects (Heid) Group work on team projects (Kabashi)
16:00-17:30 Regular expressions
(Evert/Kabashi)
Schierholz (A5) 16:15 Q&A session with instructors (Kabashi/Evert) Q&A session with instructors (all)
18:00-19:30 Further group work as needed Further group work as needed Further group work as needed