August 27, 2016 | Author: Thomas Mann | Category: N/A
Download Informationsveranstaltung Linguistische Informatik & Korpuslinguistik...
Informationsveranstaltung
Linguistische Informatik
& Korpuslinguistik Prof. Dr. Stefan Evert Professur für Korpuslinguistik http://www.linguistik.uni-erlangen.de/
Was ist „Linguistische Informatik“?
Korpuslinguistik ≠ Computerlinguistik?
2
Das Erlanger Modell ● „Linguistische Informatik“
= sprachwissenschaftlich fundierte Computerlinguistik
mit Schwerpunkt auf korpuslinguistischen Ansätzen ● ●
Sprachwissenschaft mit dem Computer Informatik für Anwendungen, die mit Sprache zu tun haben
● Computerlinguistik beschäftigt sich mit Methoden, Werkzeugen und Anwendungen der maschinellen Verarbeitung natürlicher Sprache ● ● ● ●
computerlinguistische Methoden als Forschungsgebiet sui generis bessere Sprachtechnologie durch linguistisches Verständnis,
keine „blindes“ language engineering Sprachwissenschaft: objektivierbare Aussagen über Sprache,
empirische Überprüfung linguistischer Theorien neue Erkenntnisse für Kognitionswissenschaft, Psycholinguistik, …
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
Computerlinguistik ist interdisziplinär Statistik
Informatik
Machine Learning
Künstliche Intelligenz
Computer-
linguistik
Cognitive Science
Sprachwissenschaft
Logik &
Theoretische Informatik
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
4
Was kann man mit Computerlinguistik anfangen?
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
5
Was kann man mit Computerlinguistik anfangen? ● Maschinelle Übersetzung
(Google, Babel Fish, …) ● Rechtschreibkorrektur und Grammatikprüfung ● Diktieren & Sprachsteuerung ● Sprachausgabe (z.B. Navi) ● Sprachdialogsystem (z.B. im Auto, Fahrplanauskunft, …) ● Wörterbücher (zweisprachige, Lerner-WB, Kollokations-WB) ● Semantische Websuche ● Künstliche Intelligenz:
Siri, IBM Watson, …
● Meinungs- & Marktforschung ● Information Retrieval
& Question Answering ● Text / Knowledge Mining (z.B. im biomedizinischen Bereich) ● Patentrecherche u.ä. ● Kontrollierte Terminologie ● Plagiaterkennung ● Automatische Bewertung von Klausuren und Hausarbeiten ● Spam schreiben & erkennen ● Forensik & Aufklärung (z.B. linguistische Steganographie)
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
6
CL Showcase: Maschinelle Übersetzung Übersetzungssoftware von AltaVista Babel Fish
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert http://www.systranet.com/translate
7
CL Showcase: Maschinelle Übersetzung
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
8
CL Showcase: IBM Watson gewinnt bei Jeopardy! IN 1939's CARTOON
"THE POINTER", THIS
GUY GOT A NEW,
MORE PEAR-SHAPED
BODY & PUPILS WERE ADDED TO HIS EYES
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
9
CL Showcase: IBM Watson gewinnt bei Jeopardy! THIS CLAUSE IN A UNION CONTRACT SAYS THAT WAGES WILL RISE OR FALL DEPENDING ON A STANDARD SUCH AS COST OF LIVING
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
10
Korpuslinguistik ≠ Computerlinguistik? ● Korpus (im weiten Sinn)
= Sammlung von Sprachdaten / Texten in maschinenlesbarer Form ● ●
sehr große Korpora (≥ 100 M Wörter) sind besonders nützlich Auswertung mit statistischen Methoden und maschinellen Lernverfahren
● Korpus (im engen Sinn)
= Stichprobe authentischer Sprachdaten / Texte, die für eine
bestimmte Sprache oder Sprachvarietät repräsentativ ist ● ●
z.B. literarische Korpora, Dialekte, gesprochene Sprache, IBK, … Basis für empirisch fundierte sprachwissenschaftliche Studien
● Korpuslinguistik (im weiten Sinn)
= Erstellung, maschinelle Verarbeitung und Auswertung von Korpora Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
11
Was ist Korpuslinguistik?
Korpuslinguistik Korpuslinguistik
Computerlinguistik
Sprachwissenschaft
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
12
Korpuslinguistische Fragestellungen & Anwendungen ● Kernziel: Erforschung von authentischem Sprachgebrauch ● Empirische Überprüfung linguistischer Theorien ● Lexikographie (neue Einträge, Kollokationen, Präferenzen, …) ●
IZ Lexikografie, Valenz und Kollokation
● Korpusbasierte (Lerner-)Grammatiken ● Erforschung von Sprachvariation ●
● ● ● ● ●
IZ für Dialekte und Sprachvariation
Erst- und Zweitspracherwerb (à Lernerkorpora) Psycholinguistik (à Häufigkeitsnormen) Historische Sprachwissenschaft (es gibt keine Muttersprachler!) Digital Humanities (à Auswertung digitalisierter Bestände) Soziologie und Politikwissenschaft
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
13
Wo wird Korpustechnologie praktisch eingesetzt? ● Maschinelle Übersetzung
(Google, Babel Fish, …) ● Rechtschreibkorrektur und Grammatikprüfung ● Diktieren & Sprachsteuerung ● Sprachausgabe (z.B. Navi) ● Sprachdialogsystem (z.B. im Auto, Fahrplanauskunft, …) ● Wörterbücher (zweisprachige, Lerner-WB, Kollokations-WB) ● Semantische Websuche ● Künstliche Intelligenz:
Siri, IBM Watson, …
● Meinungs- & Marktforschung ● Information Retrieval
& Question Answering ● Text / Knowledge Mining (z.B. im biomedizinischen Bereich) ● Patentrecherche u.ä. ● Kontrollierte Terminologie ● Plagiaterkennung ● Automatische Bewertung von Klausuren und Hausarbeiten ● Spam schreiben & erkennen ● Forensik & Aufklärung (z.B. linguistische Steganographie)
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
14
Beispiel: Vorteile korpusbasierter Sprachtechnologie
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
15
Lernen von Übersetzungsmustern aus Parallelkorpora
http://www.linguee.de/
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
16
Sprachwissenschaft
Korpuslinguistik
Digital Humanities
Bachelor Linguistische Informatik
Computerlinguistik Sprachtechnologie / Informatik
Sprachtechnologie
Wirtschaft / Industrie
(Spezialist für Sprache & Text)
Der Studiengang Linguistische Informatik (Entwurf) ● Bachelorstudiengang (6 Semester) ● ●
10 Module mit insgesamt 80 ECTS (1. Fach) / 70 ECTS (2. Fach) Praktikum in Forschungsprojekt oder bei Industrieunternehmen
● Kombination mit einem sprachwissenschaftlichen Fach ●
z.B. Germanistik, Anglistik oder Romanistik
● Doppelqualifikation durch ● ● ●
linguistische Ausbildung im sprachwissenschaftlichen Fach praktische Anwendung der linguistischen Theorie und computerlinguistischen Methoden im Fach Linguistische Informatik zusätzliche Vorlesungen und Übungen aus der Informatik
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
18
Studienziele ● Theoretische Kompetenzen ● ● ● ● ●
Logik, Mengenlehre, formale Sprachen, Grammatiken, Wk-Theorie computerlinguistische Aufgabenstellungen und Lösungsansätze Korpuslinguistik, deskriptive und analytische Statistik Verfahren der maschinellen Sprachverarbeitung sowie Sprachwissenschaft, Informatik, Humanities (Import / 2. Fach)
● Praktische Kompetenzen ● ● ● ● ●
Linux-Shell, Emacs/LaTeX, reguläre Ausdrücke, Datenformate (z.B. XML) Skriptprogrammierung mit Python Verwendung computerlinguistischer Werkzeuge und Ressourcen Implementierung sprachtechnologischer Anwendungen Durchführung quantitativer korpuslinguistischer Studien
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
19
Studienziele ● Soft skills ● ● ● ● ●
Teamwork konstruktive Diskussion Vermittlung von Wissen und Ergebnissen
in wissenschaftlichen Arbeiten und Vorträgen Berufserfahrung (à Praktikum) sowie weitere Soft skills aus zweitem Fach
● Allgemeine Ziele ● ●
praxis- und forschungsorientiertes Studium Verzahnung mit Infrastruktur und Forschungsthemen der Professur
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
20
Studienplan nach neuer Studienordnung (Entwurf)
Semester 1 Semester 2 Semester 3 Semester 4
Semester 5 (WiSe)
Semester 6 (SoSe)
Proseminar HS (versch. Themen) Korpuslinguistik 2 SWS; 5 ECTS 2 SWS; 5 ECTS
Oberseminar 1 1 SWS; 1 ECTS; nur Erstfach
Oberseminar 2 1 SWS; 1 ECTS; nur Erstfach
Ü Grundlagen der CL 2 2 SWS; 3 ECTS
Ü Computerling. Werkzeuge und Infrastrukturen 2 SWS; 5 ECTS
Ü Statistik 2 SWS; 5 ECTS
Ü Implement. compling. Sys. 2 SWS; 3 ECTS; nur Erstfach
Grundseminar Programmierung 2 SWS; 5 ECTS
Aufbauseminar Programmierung 2 SWS; 5 ECTS
Hauptseminar Hauptseminar theoretisch praktisch 2 SWS; 5 ECTS; 2 SWS; 5 ECTS Semester 4 oder 6
Vorlesung Grundlagen der Informatik (GdI) 3 SWS; insg. 7,5 ECTS; Import
V Konzeptionelle Modellierung 2 SWS; 2,5 ECTS; Import; Sem. 2 – 4
Import Informatik ~ 4 SWS; 5 ECTS; Import; Sem. 4 – 6; nur Erstfach
Tafelübung GdI 2 SWS; s.o. ECTS; Import
Ü Konz. Mod. 2 SWS; 2,5 ECTS; Import; Sem. 2 – 4
(WiSe)
(SoSe)
(WiSe)
VL Grundlagen der CL 1 2 SWS; 2 ECTS
VL Grundlagen der CL 2 2 SWS; 2 ECTS
Ü Grundlagen der CL 1 2 SWS; 3 ECTS Ü Arbeitstechniken der CL 2 SWS; 2,5 ECTS
(SoSe)
Rechnerübung GdI 1 SWS; s.o. ECTS; Import 12 SWS 15 ECTS
6 SWS 10 ECTS
10 SWS 20 ECTS
10 (6) SWS 20 (15) ECTS
5 (2) SWS 9 (5) ECTS
1 (0) SWS 1 (0) ECTS
21
Vergleich alte / neue Studienordnung (Entwurf) LV alt
ECTS
LV neu
ECTS
LV alt
ECTS
LV neu
ECTS
V GCL 1
2
V GCL 1
2
Ü GrammEntw
Ü GCL 1
3
Ü GCL 1
3
GK Programm
V GCL 2
2
V GCL 2
2
AK Programm
5
AS Programm.
5
Ü GCL 2
3
Ü GCL 2
3
PS EMSV
5
PS WerkzInf
5
V GCL 3
2
Proseminar
5
V+Ü KonzMod
5
V+Ü KonzMod
5
Ü GCL 3
3
V+Ü DB
5
Import Inf*
5
V GCL 4
2
Prakt. HS
5
HS praktisch
5
Ü GCL 4
3
Theoret. HS
5
HS theoret.
5
Ü Implement.
3
7,5
OS 1
1
2
OS 1
1
HS KorpLing Ü Statistik
Modul GdI Ü WACL
7,5 Modul GdI 3
Ü WACL
5
2 2,5 GS Programm.
5
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
5
Der Studiengang Linguistische Informatik ● Kleiner Studiengang: ca. 70 Studierende ● Aktive Fachschaftsinitiative:
http://fsi.linguistik.uni-erlangen.de/ ● KLUE-Stammtisch zum Semesterstart ●
Mittwoch 16.10., 19:00 im Irish Pub Murphy's Law
● Weitere Informationen zum Studium unter
http://www.linguistik.uni-erlangen.de/studium-lehre/
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
23
Nach dem Studium ● Masterstudium / Promotion ● ● ● ●
Computerlinguistik Sprachwissenschaft Digital Humanities Informatik
● Tätigkeitsbereiche in der Sprachtechnologie ● ● ● ● ● ●
Google, Microsoft, Yahoo, Twitter, … Text Mining, Information Retrieval, Search Engines, … Lexikographie und Terminologie Spracherkennung und Sprachsynthese, Dialogsysteme Computergestützter Sprachunterricht (CALL) Viele Start-Up-Unternehmen im IT-Bereich suchen Computerlinguisten!
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
24
Praktische Informationen
Bismarckstr. 6 Raum 4.000 (Büro Professur)
Philologien
Unser Team ● Prof. Dr. Stefan Evert
[email protected]
● Besim Kabashi, M.A.
[email protected]
● Thomas Proisl, M.A.
[email protected]
● Paul Greiner, M.A.
[email protected]
Webseite: http://www.linguistik.uni-erlangen.de/ Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
(CIP-Pool) Bismarckstr. 12 Raum 0.320 25
Lehrangebot im WS 2014/15 ● Vorlesung + Übung Grundlagen der Computerlinguistik 1 ● Werkzeuge und Arbeitstechniken der Computerlinguistik ● Vorlesung + Übungen Grundlagen der Informatik ● ● ● ● ●
1. Sem.
Vorlesung Grundlagen der Computerlinguistik 3 PS Einführung in die maschinelle Sprachverarbeitung 3. Sem. PS Aufbaukurs Python Vorlesung + Übung Konzeptionelle Modellierung Vorlesung + Übung Implementierung von Datenbanksystemen
● Praktisches HS: Sentiment Analysis & Subjectivity ● Oberseminar Computerlinguistik Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
5. Sem. 26
Semester: WS 2013/2014
UnivIS - Lehrveranstaltungsplan Mo
Di
Mi
08:00
Do
Fr
08:15 - 09:45
Konzeptionelle Modellierung (Lenz)
09:00
H7
10:00
10:15 - 11:45
11:00
Übung zu Grundlagen der Computerlinguistik 1 (Evert) 0.320 Bismarckstr. 12
12:00
12:15 - 13:45
13:00
Grundlagen der Computerlinguistik 1 (Evert) 0.320 Bismarckstr. 12
14:00
14:15 - 15:45
14:15 - 15:45
14:15 - 15:45
14:15 - 15:45
Werkzeuge und Arbeitstechniken der Computerlinguistik (Greiner) 0.320 Bismarckstr. 12
Aufbaukurs Python (Proisl) 0.320 Bismarckstr. 12
Grundlagen der Informatik (Grosso) H7, H8
Grundlagen der Informatik Ergänzungen (Bauer) 01.133-128
14:15 - 15:45
15:00
Praktisches Hauptseminar Computerlinguistik (Evert) 4.000 Bismarckstr. 6
16:00
16:15 - 17:45
16:15 - 17:45
16:15 - 17:45
16:15 - 17:45
17:00
Grundlagen der Computerlinguistik 3 (Evert) 4.000 Bismarckstr. 6
Implementierung von Datenbanksystemen (Meyer-Wegener)
Oberseminar Computerlinguistik (Evert) 4.000 Bismarckstr. 6
Grundlagen der Informatik (Grosso) H7, H8
18:00 19:00
H8
18:15 - 19:45
Maschinelle Sprachverarbeitung (Kabashi) 0.320 Bismarckstr. 12
27 Stand: Montag, 14 Oktober 2013 16:37:34
28