Python Für Neuronale Netze: Der schnelle Einstieg (Deep Learning, Tensorflow, Keras) (Python Programmieren Lernen 6) (German Edition) by Florian Dedov

Python Für Neuronale Netze: Der schnelle Einstieg (Deep Learning, Tensorflow, Keras) (Python Programmieren Lernen 6) (German Edition) by Florian Dedov

Autor:Florian Dedov [Dedov, Florian]
Die sprache: deu
Format: azw3
Herausgeber: UNKNOWN
veröffentlicht: 2020-01-12T16:00:00+00:00


Shakespeares Texte Laden

Fangen wir zunächst einmal damit an, den Text für das Trainieren unseres Neuronalen Netzes in unser Skript zu laden. Hierfür werde ich Ihnen nun einige Alternativen anbieten.

Zum einen können Sie jenen Datensatz verwenden, welcher in den offiziellen Tensorflow Tutorials verwendet wird – den Datensatz von Shakespeare Texten. Dieser ist jedoch auf Englisch.

Alternativ werden wir uns auch ansehen, wie wir ähnliche Texte von Goethe, aber auch von Shakespeare auf Deutsch einlesen können.

Zu guter Letzt steht es Ihnen jedoch auch frei alle anderen möglichen Textdateien zu verwenden. Vielleicht finden Sie irgendwo eine Sammlung von Reden eines US-Präsidenten oder eines Geistlichen. Oder vielleicht exportieren Sie einfach WhatsApp-Chatverläufe und benutzen diese als Trainingsdaten. Das bleibt alles Ihnen überlassen. Achten Sie jedoch darauf, dass die Daten mehr oder weniger „sauber“ sind und ausreichend viel Text vorhanden ist.

import tensorflow as tf

path_to_file = tf.keras.utils.get_file( 'shakespeare.txt' , 'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt' )

text = open (path_to_file, 'rb' )\

.read().decode( encoding = 'utf-8' ).lower()

Auf Grund der Seitenbreite, schaut der Code hier vielleicht etwas unschön formatiert aus. Lassen Sie sich dadurch jedoch nicht ablenken. Was wir hier tun ist nichts Kompliziertes. Zunächst benutzen wir die get_file Methode aus keras.utils , welche die Datei aus der URL lokal abspeichert (alternative URLs folgen gleich). Diese Funktion liefert unter anderem dem Dateipfad zurück. Dann benutzen wir einen ganz normalen File-Stream und lesen den Text aus der Datei ein. Am Ende wenden wir noch die lower Funktion auf unseren Text an, damit wir keine Unterschiede zwischen Klein- und Großbuchstaben erkennen. Das macht vieles leichter und ist für den Inhalt irrelevant.

Hier sind die Links für die jeweiligen Texte:

Shakespeare Englisch

https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt

Shakespeare Deutsch

https://archive.org/stream/shakespeareundd00kunsgoog/shakespeareundd00kunsgoog_djvu.txt

Goethe Deutsch

https://archive.org/stream/bub_gb_z9tJAAAAIAAJ/bub_gb_z9tJAAAAIAAJ_djvu.txt

Was hierbei sehr wichtig ist, ist, dass der Goethe Text sehr oft den String „digitized by google“ in sich hat. Wenn Sie mit diesem Text sinnvoll arbeiten möchten, lohnt es sich alle Vorkommnisse zu entfernen.

text = text.replace( 'digitized by google' , '' )

Das machen Sie am besten mit der replace



Download



Haftungsausschluss:
Diese Site speichert keine Dateien auf ihrem Server. Wir indizieren und verlinken nur                                                  Inhalte von anderen Websites zur Verfügung gestellt. Wenden Sie sich an die Inhaltsanbieter, um etwaige urheberrechtlich geschützte Inhalte zu entfernen, und senden Sie uns eine E-Mail. Wir werden die entsprechenden Links oder Inhalte umgehend entfernen.