Python Für Neuronale Netze: Der schnelle Einstieg (Deep Learning, Tensorflow, Keras) (Python Programmieren Lernen 6) (German Edition) by Florian Dedov
Autor:Florian Dedov [Dedov, Florian]
Die sprache: deu
Format: azw3
Herausgeber: UNKNOWN
veröffentlicht: 2020-01-12T16:00:00+00:00
Shakespeares Texte Laden
Fangen wir zunächst einmal damit an, den Text für das Trainieren unseres Neuronalen Netzes in unser Skript zu laden. Hierfür werde ich Ihnen nun einige Alternativen anbieten.
Zum einen können Sie jenen Datensatz verwenden, welcher in den offiziellen Tensorflow Tutorials verwendet wird – den Datensatz von Shakespeare Texten. Dieser ist jedoch auf Englisch.
Alternativ werden wir uns auch ansehen, wie wir ähnliche Texte von Goethe, aber auch von Shakespeare auf Deutsch einlesen können.
Zu guter Letzt steht es Ihnen jedoch auch frei alle anderen möglichen Textdateien zu verwenden. Vielleicht finden Sie irgendwo eine Sammlung von Reden eines US-Präsidenten oder eines Geistlichen. Oder vielleicht exportieren Sie einfach WhatsApp-Chatverläufe und benutzen diese als Trainingsdaten. Das bleibt alles Ihnen überlassen. Achten Sie jedoch darauf, dass die Daten mehr oder weniger „sauber“ sind und ausreichend viel Text vorhanden ist.
import tensorflow as tf
path_to_file = tf.keras.utils.get_file( 'shakespeare.txt' , 'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt' )
text = open (path_to_file, 'rb' )\
.read().decode( encoding = 'utf-8' ).lower()
Auf Grund der Seitenbreite, schaut der Code hier vielleicht etwas unschön formatiert aus. Lassen Sie sich dadurch jedoch nicht ablenken. Was wir hier tun ist nichts Kompliziertes. Zunächst benutzen wir die get_file Methode aus keras.utils , welche die Datei aus der URL lokal abspeichert (alternative URLs folgen gleich). Diese Funktion liefert unter anderem dem Dateipfad zurück. Dann benutzen wir einen ganz normalen File-Stream und lesen den Text aus der Datei ein. Am Ende wenden wir noch die lower Funktion auf unseren Text an, damit wir keine Unterschiede zwischen Klein- und Großbuchstaben erkennen. Das macht vieles leichter und ist für den Inhalt irrelevant.
Hier sind die Links für die jeweiligen Texte:
Shakespeare Englisch
https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt
Shakespeare Deutsch
https://archive.org/stream/shakespeareundd00kunsgoog/shakespeareundd00kunsgoog_djvu.txt
Goethe Deutsch
https://archive.org/stream/bub_gb_z9tJAAAAIAAJ/bub_gb_z9tJAAAAIAAJ_djvu.txt
Was hierbei sehr wichtig ist, ist, dass der Goethe Text sehr oft den String „digitized by google“ in sich hat. Wenn Sie mit diesem Text sinnvoll arbeiten möchten, lohnt es sich alle Vorkommnisse zu entfernen.
text = text.replace( 'digitized by google' , '' )
Das machen Sie am besten mit der replace
Download
Diese Site speichert keine Dateien auf ihrem Server. Wir indizieren und verlinken nur Inhalte von anderen Websites zur Verfügung gestellt. Wenden Sie sich an die Inhaltsanbieter, um etwaige urheberrechtlich geschützte Inhalte zu entfernen, und senden Sie uns eine E-Mail. Wir werden die entsprechenden Links oder Inhalte umgehend entfernen.
01 by Geburtsrecht(1255)
Was wir sind und was wir sein könnten by Hüther Gerald(1181)
Der Schimmelreiter by Theodor Storm(1173)
Save me by Mona Kasten(1172)
26 by Lilith x 2 = ¿(1146)
Anleitung zum Unglücklichsein (German Edition) by Watzlawick Paul(1145)
23 by Felidae(1137)
KRIEGS~1 by Unbekannter Autor(1126)
Erfolgreich wünschen by Pierre Franckh(1118)
Das 1 x 1 des Zeitmanagement by Lothar Seiwert(1103)
So schön wie hier kanns im Himmel gar nicht sein!: Tagebuch einer Krebserkrankung (www.Boox.bz) by Schlingensief Christoph(1093)
50 Rituale für das Leben by Anselm Gruen(1090)
von_Bingen_Heilwissen by Hildegard_von_Bingen(1083)
Das Glücksprojekt by Alexandra Reinwarth(1080)
Das Drama des begabten Kindes by Alice Miller(1074)
Der Alchimist (German Edition) by Paulo Coelho(1067)
Magic Cleaning by Kondo Marie(1061)
Versuch über den menschlichen Verstand by John Locke(1055)
Eine neue Logik der Geldpolitik by Burkhard Wehner(1054)