Sprachtechnologie in den Digital Humanities

Description

AKTUELL:

Am 20.05.2019 startet die vorläufig letzte Runde des MOOCs “Sprachtechnologie in den Digital Humanities”. Anschliessend wird der Kurs auf der Plattform Coursera pausiert, d.h. Einschreibungen in den Kurs werden ab diesem Datum nicht mehr möglich sein. Die Videos bleiben aber nach wie vor über unseren YouTube-Kanal (https://www.youtube.com/channel/UChb3Rd5vo3WEgMSy99VInaw) bzw. den SwitchTube-Kanal der Uni Zürich (https://tube.switch.ch/channels/bb3adc02) sichtbar. Die Pausierung dient primär zur Aktualisierung und Erweiterung der Kursinhalte und Lernmaterialien.
KURS-BESCHREIBUNG:
Sie möchten wissen, was genau die Digitalisierung von Texten beinhaltet? Sie haben sich schon immer gefragt, wie Texte in einem Korpus optimal durchsuchbar gemacht werden? Sie wundern sich, wie Texte mit linguistischen Informationen angereichert werden können?
Dann sind Sie in diesem Kurs genau richtig!! Er bietet einen Überblick über die wichtigsten Konzepte und Probleme bei der Digitalisierung und Annotation von geschriebenen Texten. In sechs thematischen Modulen verteilt auf sechs Wochen lernen Sie relevante Technologien und Werkzeuge kennen. Jedes Modul beinhaltet zwei bis drei Videos (10-20 Minuten), ein Quiz oder ein Peer-Assessment sowie kurze Hintergrundtexte und weiterführende Links zu ausgewählten Themen.
Für wen ist dieser Kurs interessant:
Dieser Kurs richtet sich an Korpuslinguist/-innen, an Geisteswissenschaftler/-innen und Sprachinteressierte, die von einer rein sprachwissenschaftlichen Perspektive ausgehend auch ein paar Schritte in die Welt der Digitalisierung von Texten wagen und die dahinterstehenden Technologien kennenlernen möchten.
Für diesen Kurs brauchen Sie keine Programmierkenntnisse. Mit Interesse an der Digitalisierung und Annotation von Texten sind Sie bestens gerüstet für diesen Kurs.
Wir freuen uns, mit Ihnen diese digitalen Wege zu beschreiten, die in den Geisteswissenschaften immer wichtiger werden.

What you will learn

Woche 1 – Wege in die digitale Welt

In der ersten Woche werden wir darüber sprechen, wie Texte digitalisiert und zum Beispiel in XML dargestellt werden können und was OCR (optical character recognition) für die Anwendung in der Praxis bedeutet. Wir befassen uns außerdem mit der Erstellung von Korpora und den Schwierigkeiten, denen wir dabei begegnen können. Viel Spaß!

Woche 2 – Strukturierte und nachhaltige Repräsentation von Korpusdaten

In der zweiten Woche beschäftigen wir uns mit der strukturierten und nachhaltigen Repräsentation von Korpusdaten. Wir werden über die Markup Language XML sprechen und einige wichtige Standards zur Textrepräsentation kennenlernen. In der zweiten Hälfte dieses Moduls geht es anschließend um das Thema der automatischen Text- und Wortsegmentierung. Viel Spaß mit den Videos!

Woche 3 – Eigenschaften von Korpora und grundlegende Analysemethoden

In der dritten Woche geht es um die wichtigsten Eigenschaften von Korpora, um grundlegende Analysemethoden in der Korpuslinguistik und Grundbegriffe wie Worthäufigkeiten, Kollokationen, N-Gramme. Im letzten Teil wird Ihnen Noah Bubenhofer noch einen Ausblick auf die visuelle und graphische Darstellung von Texteigenschaften geben. Viel Spaß!

Woche 4 – Automatische Korpusannotation mit computerlinguistischen Werkzeugen

In diesem Modul geht es um die automatische Korpus-Annotation mit linguistischen Informationen wie Part-Of-Speech-Tags (Wortarten) und Lemmas (Grundformen), aber auch um die Schwierigkeiten, die eine solche automatische Annotation mit sich bringen kann. Wir werden besprechen, wie die automatische Erkennung von Eigennamen oder geographischen Namen (Named Entities) abläuft und im dritten Teil noch auf die automatische Syntax-Analyse von Texten eingehen. Viel Spaß!

What’s included