Posted on 22. Oktober 20216. Dezember 2021 by Andreas Stöckl

Data Science Analysen mit natürlicher Sprache “programmieren”

In einem früheren Blogbeitrag (http://www.stoeckl.ai/werden-softwareentwickler-durch-ai-software-ersetzt/) habe ich auch bereits darüber geschrieben, und die Frage aufgeworfen, ob es in Zukunft Programmierer (teilweise) ersetzen wird.

Ich habe nun im Bereich von Analysen im Data Science Bereich ein konkretes Experiment gemacht, um zu testen, ob hier ein Einsatz möglich ist. Die Aufgabe war dabei keinen Programmcode zu schreiben, um die Aufgaben zu erledigen, sondern Anweisungen in Englischer Sprache zu geben. Das Codex System musste das in Programmcode übersetzen, der dann ausgeführt wurde.

Ein Beispiel für eine Aufgabe:

So eine Anweisung an das Codex System sah dann zum Beispiel so aus:

“Load the gensim package make a corpus of documents from the column ‘text’ of the dataframe, and a dictionary from the tokenized documents and train a LDA model on it.”

Das ergab dann zum Beispiel folgenden Programmcode in der Sprache Python:

import gensim

from gensim import corpora, models

# Tokenize the documents

tokenized_docs = [doc.split() for doc in df[‘text’]]

# Create a dictionary from the tokenized documents

dictionary = corpora.Dictionary(tokenized_docs)

# Create a corpus from the tokenized documents

corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]

# Train the LDA model

lda_model = models.LdaModel(corpus, num_topics=10, id2word=dictionary, passes=10)

# Print the top terms for each topic

for idx, topic in lda_model.print_topics(-1):

print(‘Topic: {} nWords: {}’.format(idx, topic))

Diese Anweisungen führen hier zum Beispiel eine sogenanne Topicanalyse auf Textdokumenten durch. Das Programm läuft korrekt und erledigt die Aufgabe. Details zum Experiment können Sie in meinem Artikel nachlesen.

Oberfläche OpenAI Codex (Quelle: https://openai.com/blog/openai-codex/)

Was habe ich dabei gelernt?

Die Anweisungen müssen den Prozess, der als Code generiert werden soll, genau beschreiben. Dies erfordert etwas Experimentierfreude und nicht weniger Know-how als das Schreiben des Codes von Hand. Der Hauptvorteil liegt darin, dass man nicht alle Details der Syntax kennen muss und sich damit einige Zeit erspart.

Zudem muss die Eingabeaufforderung sehr sorgfältig gewählt werden. Manchmal führen kleine Änderungen in der Eingabeaufforderung zu nicht nachvollziehbaren Änderungen im Ergebnis.

Außerdem ist es sehr wichtig, dass die Algorithmen vom Autor beherrscht werden, und auch die benötigten Programmpakete müssen dabei bekannt sein. Das Sprachmodell macht in etwa das Gleiche, als wenn man die richtige Texteingabe in der Google-Suche verwendet, die gefundenen Ergebnisse von Stackoverflow nimmt und die Codeschnipsel zusammensetzt. Allerdings auf eine schnellere und komfortablere Art und Weise.

Andreas Stöckl

Senior Expert KI & Marketing Data Science

Bei Fragen zum Thema

Mathematiker & Physiker mit einem Faible für KI, Datenanalyse, Typo3-Experte, Professor an der FH Hagenberg (Webentwicklung & Content Management)

JETZT KONTAKTIEREN

„Die Zusammenarbeit mit 506 hat von Anfang an super funktioniert und ich fühle mich sehr gut aufgehoben – manchmal habe ich das Gefühl, dass ich die einzige Kundin bin, die von 506 betreut wird, weil alles so gut klappt. Das gepaart mit jeder Menge Experten Know-How und umfassender Beratung machen 506 für uns zum idealen Partner in Sachen Online-Marketing.”

Mag.a Barbara TOMASITS, MBA

FH Gesundheitsberufe OÖ

“Professionelle Beratung, schnelle Umsetzung – einfach Top Qualität aus Österreich!”

Leonhard PFANDLSTEINER

Salinen Austria AG

“Was wir an der Zusammenarbeit mit 506 besonders schätzen, ist der transparente, partnerschaftliche Umgang mit den Daten. In der Zusammenarbeit mit 506 lernen wir in Sachen Data Science selber auch kontinuierlich dazu. Dieser Wissenstransfer freut uns sehr und ist alles andere als selbstverständlich.”

Matthias KRAPF

Tiroler Tageszeitung

Kunden, die uns vertrauen

Tiroler Tageszeitung, 506 Marketing Data Science

Rekord Fenster, 506 Marketing Data Science

Als Experten für Conversational AI revolutionieren wir die Art und Weise, wie Unternehmen künstliche Intelligenz sicher nutzen können, um ihre Produktivität zu verbessern. Mit der Entwicklung von CompanyGPT, einer führenden KI-Lösung für den Unternehmenseinsatz, ermöglicht 506.ai eine sichere Nutzung von firmeneigenen Daten und vereinfacht gleichzeitig deren Handhabung durch eine integrierte Bibliothek mit Vorlagen für wiederkehrende Aufgaben.

Data Science Analysen mit natürlicher Sprache “programmieren”

Ein Beispiel für eine Aufgabe:

Was habe ich dabei gelernt?

Andreas Stöckl

Bei Fragen zum Thema

Ähnliche Artikel

GPT-4 und sicherer Dateiupload: CompanyGPTs Sprung in die nächste Generation

Retrieval Augmented Generation (RAG): Halluzinationen in GenAI-Anwendungen datenschutzkonform minimieren

Use Case Conquest: CompanyGPT als DSGVO-konforme KI-Lösung für Unternehmen, bei denen Datensicherheit eine große Rolle spielt

Das sagen unsere Kunden

Kunden, die uns vertrauen