Informationsveranstaltung Linguistische Informatik & Korpuslinguistik

August 27, 2016 | Author: Thomas Mann | Category: N/A
Share Embed Donate


Short Description

Download Informationsveranstaltung Linguistische Informatik & Korpuslinguistik...

Description

Informationsveranstaltung
 Linguistische Informatik
 & Korpuslinguistik Prof. Dr. Stefan Evert Professur für Korpuslinguistik http://www.linguistik.uni-erlangen.de/

Was ist „Linguistische Informatik“?

Korpuslinguistik ≠ Computerlinguistik?

2

Das Erlanger Modell ●  „Linguistische Informatik“
 = sprachwissenschaftlich fundierte Computerlinguistik
 mit Schwerpunkt auf korpuslinguistischen Ansätzen ●  ● 

Sprachwissenschaft mit dem Computer Informatik für Anwendungen, die mit Sprache zu tun haben

●  Computerlinguistik beschäftigt sich mit Methoden, Werkzeugen und Anwendungen der maschinellen Verarbeitung natürlicher Sprache ●  ●  ●  ● 

computerlinguistische Methoden als Forschungsgebiet sui generis bessere Sprachtechnologie durch linguistisches Verständnis,
 keine „blindes“ language engineering Sprachwissenschaft: objektivierbare Aussagen über Sprache,
 empirische Überprüfung linguistischer Theorien neue Erkenntnisse für Kognitionswissenschaft, Psycholinguistik, …

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

Computerlinguistik ist interdisziplinär Statistik

Informatik

Machine Learning

Künstliche Intelligenz

Computer-
 linguistik

Cognitive Science

Sprachwissenschaft

Logik &
 Theoretische Informatik

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

4

Was kann man mit Computerlinguistik anfangen?

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

5

Was kann man mit Computerlinguistik anfangen? ●  Maschinelle Übersetzung
 (Google, Babel Fish, …) ●  Rechtschreibkorrektur und Grammatikprüfung ●  Diktieren & Sprachsteuerung ●  Sprachausgabe (z.B. Navi) ●  Sprachdialogsystem (z.B. im Auto, Fahrplanauskunft, …) ●  Wörterbücher (zweisprachige, Lerner-WB, Kollokations-WB) ●  Semantische Websuche ●  Künstliche Intelligenz:
 Siri, IBM Watson, …

●  Meinungs- & Marktforschung ●  Information Retrieval
 & Question Answering ●  Text / Knowledge Mining (z.B. im biomedizinischen Bereich) ●  Patentrecherche u.ä. ●  Kontrollierte Terminologie ●  Plagiaterkennung ●  Automatische Bewertung von Klausuren und Hausarbeiten ●  Spam schreiben & erkennen ●  Forensik & Aufklärung (z.B. linguistische Steganographie)

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

6

CL Showcase: Maschinelle Übersetzung Übersetzungssoftware von AltaVista Babel Fish

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert http://www.systranet.com/translate

7

CL Showcase: Maschinelle Übersetzung

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

8

CL Showcase: IBM Watson gewinnt bei Jeopardy! IN 1939's CARTOON
 "THE POINTER", THIS
 GUY GOT A NEW,
 MORE PEAR-SHAPED
 BODY & PUPILS WERE ADDED TO HIS EYES

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

9

CL Showcase: IBM Watson gewinnt bei Jeopardy! THIS CLAUSE IN A UNION CONTRACT SAYS THAT WAGES WILL RISE OR FALL DEPENDING ON A STANDARD SUCH AS COST OF LIVING

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

10

Korpuslinguistik ≠ Computerlinguistik? ●  Korpus (im weiten Sinn)
 = Sammlung von Sprachdaten / Texten in maschinenlesbarer Form ●  ● 

sehr große Korpora (≥ 100 M Wörter) sind besonders nützlich Auswertung mit statistischen Methoden und maschinellen Lernverfahren

●  Korpus (im engen Sinn)
 = Stichprobe authentischer Sprachdaten / Texte, die für eine
 bestimmte Sprache oder Sprachvarietät repräsentativ ist ●  ● 

z.B. literarische Korpora, Dialekte, gesprochene Sprache, IBK, … Basis für empirisch fundierte sprachwissenschaftliche Studien

●  Korpuslinguistik (im weiten Sinn)
 = Erstellung, maschinelle Verarbeitung und Auswertung von Korpora Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

11

Was ist Korpuslinguistik?

Korpuslinguistik Korpuslinguistik

Computerlinguistik

Sprachwissenschaft

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

12

Korpuslinguistische Fragestellungen & Anwendungen ●  Kernziel: Erforschung von authentischem Sprachgebrauch ●  Empirische Überprüfung linguistischer Theorien ●  Lexikographie (neue Einträge, Kollokationen, Präferenzen, …) ● 

IZ Lexikografie, Valenz und Kollokation

●  Korpusbasierte (Lerner-)Grammatiken ●  Erforschung von Sprachvariation ● 

●  ●  ●  ●  ● 

IZ für Dialekte und Sprachvariation

Erst- und Zweitspracherwerb (à Lernerkorpora) Psycholinguistik (à Häufigkeitsnormen) Historische Sprachwissenschaft (es gibt keine Muttersprachler!) Digital Humanities (à Auswertung digitalisierter Bestände) Soziologie und Politikwissenschaft

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

13

Wo wird Korpustechnologie praktisch eingesetzt? ●  Maschinelle Übersetzung
 (Google, Babel Fish, …) ●  Rechtschreibkorrektur und Grammatikprüfung ●  Diktieren & Sprachsteuerung ●  Sprachausgabe (z.B. Navi) ●  Sprachdialogsystem (z.B. im Auto, Fahrplanauskunft, …) ●  Wörterbücher (zweisprachige, Lerner-WB, Kollokations-WB) ●  Semantische Websuche ●  Künstliche Intelligenz:
 Siri, IBM Watson, …

●  Meinungs- & Marktforschung ●  Information Retrieval
 & Question Answering ●  Text / Knowledge Mining (z.B. im biomedizinischen Bereich) ●  Patentrecherche u.ä. ●  Kontrollierte Terminologie ●  Plagiaterkennung ●  Automatische Bewertung von Klausuren und Hausarbeiten ●  Spam schreiben & erkennen ●  Forensik & Aufklärung (z.B. linguistische Steganographie)

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

14

Beispiel: Vorteile korpusbasierter Sprachtechnologie

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

15

Lernen von Übersetzungsmustern aus Parallelkorpora

http://www.linguee.de/

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

16

Sprachwissenschaft
 Korpuslinguistik

Digital Humanities

Bachelor Linguistische Informatik

Computerlinguistik Sprachtechnologie / Informatik

Sprachtechnologie

Wirtschaft / Industrie
 (Spezialist für Sprache & Text)

Der Studiengang Linguistische Informatik (Entwurf) ●  Bachelorstudiengang (6 Semester) ●  ● 

10 Module mit insgesamt 80 ECTS (1. Fach) / 70 ECTS (2. Fach) Praktikum in Forschungsprojekt oder bei Industrieunternehmen

●  Kombination mit einem sprachwissenschaftlichen Fach ● 

z.B. Germanistik, Anglistik oder Romanistik

●  Doppelqualifikation durch ●  ●  ● 

linguistische Ausbildung im sprachwissenschaftlichen Fach praktische Anwendung der linguistischen Theorie und computerlinguistischen Methoden im Fach Linguistische Informatik zusätzliche Vorlesungen und Übungen aus der Informatik

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

18

Studienziele ●  Theoretische Kompetenzen ●  ●  ●  ●  ● 

Logik, Mengenlehre, formale Sprachen, Grammatiken, Wk-Theorie computerlinguistische Aufgabenstellungen und Lösungsansätze Korpuslinguistik, deskriptive und analytische Statistik Verfahren der maschinellen Sprachverarbeitung sowie Sprachwissenschaft, Informatik, Humanities (Import / 2. Fach)

●  Praktische Kompetenzen ●  ●  ●  ●  ● 

Linux-Shell, Emacs/LaTeX, reguläre Ausdrücke, Datenformate (z.B. XML) Skriptprogrammierung mit Python Verwendung computerlinguistischer Werkzeuge und Ressourcen Implementierung sprachtechnologischer Anwendungen Durchführung quantitativer korpuslinguistischer Studien

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

19

Studienziele ●  Soft skills ●  ●  ●  ●  ● 

Teamwork konstruktive Diskussion Vermittlung von Wissen und Ergebnissen
 in wissenschaftlichen Arbeiten und Vorträgen Berufserfahrung (à Praktikum) sowie weitere Soft skills aus zweitem Fach

●  Allgemeine Ziele ●  ● 

praxis- und forschungsorientiertes Studium Verzahnung mit Infrastruktur und Forschungsthemen der Professur

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

20

Studienplan nach neuer Studienordnung (Entwurf)


Semester 1 Semester 2 Semester 3 Semester 4

Semester 5 (WiSe)

Semester 6 (SoSe)

Proseminar HS (versch. Themen) Korpuslinguistik 2 SWS; 5 ECTS 2 SWS; 5 ECTS

Oberseminar 1 1 SWS; 1 ECTS; nur Erstfach

Oberseminar 2 1 SWS; 1 ECTS; nur Erstfach

Ü Grundlagen der CL 2 2 SWS; 3 ECTS

Ü Computerling. Werkzeuge und Infrastrukturen 2 SWS; 5 ECTS

Ü Statistik 2 SWS; 5 ECTS

Ü Implement. compling. Sys. 2 SWS; 3 ECTS; nur Erstfach

Grundseminar Programmierung 2 SWS; 5 ECTS

Aufbauseminar Programmierung 2 SWS; 5 ECTS

Hauptseminar Hauptseminar theoretisch praktisch 2 SWS; 5 ECTS; 2 SWS; 5 ECTS Semester 4 oder 6

Vorlesung Grundlagen der Informatik (GdI) 3 SWS; insg. 7,5 ECTS; Import

V Konzeptionelle Modellierung 2 SWS; 2,5 ECTS; Import; Sem. 2 – 4

Import Informatik ~ 4 SWS; 5 ECTS; Import; Sem. 4 – 6; nur Erstfach

Tafelübung GdI 2 SWS; s.o. ECTS; Import

Ü Konz. Mod. 2 SWS; 2,5 ECTS; Import; Sem. 2 – 4

(WiSe)

(SoSe)

(WiSe)

VL Grundlagen der CL 1 2 SWS; 2 ECTS

VL Grundlagen der CL 2 2 SWS; 2 ECTS

Ü Grundlagen der CL 1 2 SWS; 3 ECTS Ü Arbeitstechniken der CL 2 SWS; 2,5 ECTS

(SoSe)

Rechnerübung GdI 1 SWS; s.o. ECTS; Import 12 SWS 15 ECTS

6 SWS 10 ECTS

10 SWS 20 ECTS

10 (6) SWS 20 (15) ECTS

5 (2) SWS 9 (5) ECTS

1 (0) SWS 1 (0) ECTS

21

Vergleich alte / neue Studienordnung (Entwurf) LV alt

ECTS

LV neu

ECTS

LV alt

ECTS

LV neu

ECTS

V GCL 1

2

V GCL 1

2

Ü GrammEntw

Ü GCL 1

3

Ü GCL 1

3

GK Programm

V GCL 2

2

V GCL 2

2

AK Programm

5

AS Programm.

5

Ü GCL 2

3

Ü GCL 2

3

PS EMSV

5

PS WerkzInf

5

V GCL 3

2

Proseminar

5

V+Ü KonzMod

5

V+Ü KonzMod

5

Ü GCL 3

3

V+Ü DB

5

Import Inf*

5

V GCL 4

2

Prakt. HS

5

HS praktisch

5

Ü GCL 4

3

Theoret. HS

5

HS theoret.

5

Ü Implement.

3

7,5

OS 1

1

2

OS 1

1

HS KorpLing Ü Statistik

Modul GdI Ü WACL

7,5 Modul GdI 3

Ü WACL

5

2 2,5 GS Programm.

5

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

5

Der Studiengang Linguistische Informatik ●  Kleiner Studiengang: ca. 70 Studierende ●  Aktive Fachschaftsinitiative:
 http://fsi.linguistik.uni-erlangen.de/ ●  KLUE-Stammtisch zum Semesterstart ● 

Mittwoch 16.10., 19:00 im Irish Pub Murphy's Law

●  Weitere Informationen zum Studium unter
 http://www.linguistik.uni-erlangen.de/studium-lehre/

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

23

Nach dem Studium ●  Masterstudium / Promotion ●  ●  ●  ● 

Computerlinguistik Sprachwissenschaft Digital Humanities Informatik

●  Tätigkeitsbereiche in der Sprachtechnologie ●  ●  ●  ●  ●  ● 

Google, Microsoft, Yahoo, Twitter, … Text Mining, Information Retrieval, Search Engines, … Lexikographie und Terminologie Spracherkennung und Sprachsynthese, Dialogsysteme Computergestützter Sprachunterricht (CALL) Viele Start-Up-Unternehmen im IT-Bereich suchen Computerlinguisten!

Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

24

Praktische Informationen

Bismarckstr. 6 Raum 4.000 (Büro Professur)

Philologien

Unser Team ●  Prof. Dr. Stefan Evert
 [email protected]

●  Besim Kabashi, M.A.
 [email protected]

●  Thomas Proisl, M.A.
 [email protected]

●  Paul Greiner, M.A.
 [email protected]

Webseite: http://www.linguistik.uni-erlangen.de/ Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

(CIP-Pool) Bismarckstr. 12 Raum 0.320 25

Lehrangebot im WS 2014/15 ●  Vorlesung + Übung Grundlagen der Computerlinguistik 1 ●  Werkzeuge und Arbeitstechniken der Computerlinguistik ●  Vorlesung + Übungen Grundlagen der Informatik ●  ●  ●  ●  ● 

1. Sem.

Vorlesung Grundlagen der Computerlinguistik 3 PS Einführung in die maschinelle Sprachverarbeitung 3. Sem. PS Aufbaukurs Python Vorlesung + Übung Konzeptionelle Modellierung Vorlesung + Übung Implementierung von Datenbanksystemen

●  Praktisches HS: Sentiment Analysis & Subjectivity ●  Oberseminar Computerlinguistik Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert

5. Sem. 26

Semester: WS 2013/2014

UnivIS - Lehrveranstaltungsplan Mo

Di

Mi

08:00

Do

Fr

08:15 - 09:45

Konzeptionelle Modellierung (Lenz)

09:00

H7

10:00

10:15 - 11:45

11:00

Übung zu Grundlagen der Computerlinguistik 1 (Evert) 0.320 Bismarckstr. 12

12:00

12:15 - 13:45

13:00

Grundlagen der Computerlinguistik 1 (Evert) 0.320 Bismarckstr. 12

14:00

14:15 - 15:45

14:15 - 15:45

14:15 - 15:45

14:15 - 15:45

Werkzeuge und Arbeitstechniken der Computerlinguistik (Greiner) 0.320 Bismarckstr. 12

Aufbaukurs Python (Proisl) 0.320 Bismarckstr. 12

Grundlagen der Informatik (Grosso) H7, H8

Grundlagen der Informatik Ergänzungen (Bauer) 01.133-128

14:15 - 15:45

15:00

Praktisches Hauptseminar Computerlinguistik (Evert) 4.000 Bismarckstr. 6

16:00

16:15 - 17:45

16:15 - 17:45

16:15 - 17:45

16:15 - 17:45

17:00

Grundlagen der Computerlinguistik 3 (Evert) 4.000 Bismarckstr. 6

Implementierung von Datenbanksystemen (Meyer-Wegener)

Oberseminar Computerlinguistik (Evert) 4.000 Bismarckstr. 6

Grundlagen der Informatik (Grosso) H7, H8

18:00 19:00

H8

18:15 - 19:45

Maschinelle Sprachverarbeitung (Kabashi) 0.320 Bismarckstr. 12

27 Stand: Montag, 14 Oktober 2013 16:37:34

28

View more...

Comments

Copyright � 2017 SILO Inc.