adesso Blog

Die maschinelle Zusammenfassung stellt eine große Arbeitserleichterung dar, denn solche Aufgaben binden viel Zeit und sind im Grunde genommen eine Form von Datentransformation. Die Datentransformation hier ist eine Transformation, die von vielen Detailinformationen ausgeht. Ein Mensch braucht mehr Zeit als ein Computer, um diese Informationen aufzunehmen, sich darüber einen groben Überblick zu verschaffen und zu entscheiden, wie sie für den Menschen besser handhabbar sind.

In diesem Blog-Beitrag möchte ich mich speziell auf das Prompt Engineering und die dazugehörige Vorbereitung zur maschinellen Zusammenfassung von Texten mit großen Sprachmodellen, in dem Fall mit Aleph Alpha Luminous, fokussieren. Im ersten Teil geht es zunächst um die Anforderungen einer Zusammenfassung und um die technischen Herausforderungen in Verbindung mit LLMs.

Methodische Grundüberlegung

Was ist eigentlich eine Zusammenfassung? Eine recht gute Erläuterung findet sich wie folgt: „Zusammenfassung ist die Bezeichnung für eine Inhaltsangabe in Kurzform ohne bewertende Elemente. Eine Zusammenfassung oder Inhaltsangabe enthält alle wesentlichen Teile des [Gesamtwerks]. Sie muss möglichst wichtige Aspekte berücksichtigen und andere weglassen, da sie definitionsmäßig kürzer als das Gesamtwerk sein soll. […] Sie soll einen schnellen Überblick ermöglichen […].“ (Quelle: https://definition.cs.de/zusammenfassung/) Damit ist schon mal klar: Eine Zusammenfassung soll kurz sein und auf das Wesentliche reduziert wertefrei einen Überblick ermöglichen. Was genau „kurz“ und was genau „wesentlich“ ist, liegt im Auge der Betrachterin und des Betrachters und ist daher sehr heterogen.

Bei der Veröffentlichung von Werken, die einen formalen Qualitätsprozess durchlaufen (beispielsweise ein Buch oder ein wissenschaftlicher Artikel), hat sich eine Länge von 150 bis 250 Wörtern etabliert. Wie aus der folgenden Abbildung hervorgeht, machen einige wissenschaftliche Zeitschriften sogar Vorgaben zur Forderung der Wesentlichkeit. In der folgenden Abbildung ist eine solche Vorgabe durch eine „geleitete Zusammenfassung“ zu sehen. Hier wird zunächst der Grund (purpose) für die vorliegende Publikation erläutert, dann werden der Forschungsansatz (design/methodology/approach), die Ergebnisse (findings), Erkenntnisse oder Limitationen (research limitations/implications) sowie der wissenschaftliche Mehrwert (originality/value) betrachtet.


Abbildung 1: Beispiel einer Zusammenfassung aus wissenschaftlicher Zeitschrift, Quelle: https://www.emerald.com/insight/content/doi/10.1108/INTR-08-2021-0600/full/html

Insbesondere in den letzten Jahren hat sich auch das Format „TL;DR“ = „Too Long; Did Not Read“ durchgesetzt (siehe Abbildung 2). In diesem Beispiel wurde von der Editorin bzw. vom Editor ein Richtwert von etwa fünf Stichsätzen mit jeweils einer maximalen Länge von 85 Zeichen inklusive Leerzeichen vorgegeben.


Abbildung 2: Beispiel für das TL;DR-Format aus dem International Journal of Information Management. Diese beiden Vorbilder sollen uns aus einer etablierten Richtlinie als Ausgangspunkt für die Gestaltung von maschineller Zusammenfassung dienen.

Herausforderung bei der Zusammenfassung mit LLMs

Unter der Annahme, dass der Input ein sauber digitalisiertes Textformat hat und somit keine Fehleranfälligkeit im Zuge verschiedener Zwischenprozesse aufweist, ergeben sich folgende Herausforderungen:

Übersicht über die Herausforderungen bei der maschinellen Zusammenfassung technischer Art

Art Herausforderung Beschreibung
Technisch Kontextlänge LLMs tendieren dazu, Inhalte am Anfang oder am Ende eines Textinputs (=Kontext) besser zu nutzen als Inhalte in der Mitte. D.h. ein hoher Kontextinput birgt das Risiko eines Leistungsverlustes.
Technisch Wirtschaftliche Faktoren Kostenmultiplikatoren sind die Ausgabe von Prompt Instructions und die fortlaufende Bearbeitung der Texte für die Zusammenfassung.
Technisch Verarbeitungszeit Eine iterative Vorgehensweise kann nicht parallelisiert werden.
Technisch Halluzination LLMs neigen dazu, aus ihrem Weltwissen zu schöpfen und Dinge hinzuzufügen.
Fachlich Spezifizierung des Umfangs der Zusammenfassung Mehr dazu im nächsten Teil des Blog-Beitrags.
Fachlich Prompt Engineering Mehr dazu im nächsten Teil des Blog-Beitrags.
Fachlich Qualitätsfaktoren Mehr dazu im nächsten Teil des Blog-Beitrags.

Herausforderung: Kontextlänge

Die Kontextlänge ist die maximal zulässige Texteingabe, gemessen in Tokengröße, die ein LLM erfassen und verarbeiten kann. Hier haben sich verschiedene Leistungsausprägungen entwickelt. Zum Beispiel (chronologisch dargestellt):

  • Luminous: bis zu 2.048 Token
  • GPT-3.5 Turbo: bis zu 16.000 Token
  • GPT-4: 32.000 Token
  • Claude: bis zu 100.000 Token

Was bedeuten diese Zahlen? Wir können uns folgender Analogie bedienen: Bei GPT-4 würde eine gute und knackige Doktorarbeit hineinpassen und bei Claude ein paar Harry-Potter-Bände. Die Tendenz der derzeitigen Entwicklungen deutet auf eine Erweiterung der Kontextlänge hin und verleitet zu der Annahme, dass dies auch automatisch besser ist.

Forscherinnen und Forscher haben diesen Aspekt näher untersucht und kommen zu dem Schluss, dass auch LLMs dem so genannten „Serial-Position Effect“ unterliegen. Dieser Effekt wurde in zahlreichen empirischen Untersuchungen festgestellt und besagt, dass sich Personen in einer Reihe von aufeinanderfolgenden Items tendenziell besser an das erste und das letzte Item erinnern und die mittleren Items schlechter abrufen können.

Dies wird in der folgenden Abbildung noch einmal verdeutlicht. Hier wurden verschiedene LLMs oder Sprachmodelle für verschiedene Dokumentinputlängen untersucht. Dazu haben sie den Anwendungsfall „Frage und Antwort“ verwendet und einen Testdatensatz erzeugt, in dem sie für jede Frage eine richtige Antwort mit bis zu n irrelevanten Textabschnitten ohne richtige Antwort konstruiert haben. In diesem Experiment weisen die Forscherinnen und Forscher nach, dass die Accuracy (Genauigkeit) schlecht ist, wenn sich die richtige Antwort in der Mitte des Inputtextes befindet, und besonders gut, wenn sie an der Position ganz vorne im Inputtext liegt.

Die Forscherinnen und Forscher vermuten, dass dies auf die Modellarchitektur (die für die aktuellen LLMs auf der gleichen Transformer-Architektur basiert) und das Tuning zurückzuführen ist. Aus diesen empirischen Untersuchungen schließen die Forscherinnen und Forscher, dass ein größeres Kontextfenster bei LLMs nicht zu besseren Ergebnissen bei der Nutzung von Input führt. Daraus schließe ich wiederum, dass ein Kontextfenster von 100.000 Token wie bei Claude im Vergleich zu einem Kontextfenster von 2.048 Token wie bei Luminous nicht zu besseren Eigenschaften in der Synthese führt. Die Implikation ist also, dass in jedem Fall der Input reduziert werden muss, um eine bessere Zusammenfassung zu erreichen. Daraus ergibt sich die Frage: Was ist die optimale Textlänge?


Performanzverlust von LLMs, wenn der Textkontext lang ist, aus Liu et al (2023), Lost in the Middle: How Language Models Use Long Contexts

Herausforderung: wirtschaftliche Faktoren

Verschiedene Ansätze zielen auf eine gleitende Zusammenfassung oder auf eine Verfeinerung der Vorgaben durch präzisere Aufforderungen ab. Unter einer gleitenden Zusammenfassung versteht man die Zusammenfassung des Textabschnitts Teil A, um diesen dann in die Zusammenfassung des Textabschnitts Teil B mitzunehmen und mit dem anderen Textabschnitt wieder zusammenzufassen. Man erhofft sich davon, dass der Kontext erhalten bleibt.

Als Beispiel möchte ich einen Fachartikel (siehe Abbildung 4) zusammenfassen und zerlege ihn (exemplarisch!) in drei Teile: Teil A (siehe unten blau markiert), Teil B (siehe unten grün markiert) und Teil C (siehe unten rot markiert).


Abbildung 4: Abschnitte aus Do Khac et al (2022), Spannung zwischen Recht und „Richtig“ für Beispielzusammenfassung

Diese Textabschnitte gebe ich jeweils in die maschinelle Zusammenfassung (siehe „Prompt“ in Abbildung 5) und ziehe jeweils die Zwischenzusammenfassung (siehe „Zusammenfassung“ in Abbildung 5) mit in die nächste Zusammenfassung.


Abbildung 5: R Konsolenoutput für Summarization Jobs

Bei diesem Ansatz ist davon auszugehen, dass die Anzahl der Token nichtlinear ansteigt und die Kosten damit korrelieren. Bei einer Geschäftsanwendung mit vielen Incidents kann dies zu einem signifikanten Kostenfaktor werden. Ich habe versucht, dies in der folgenden Tabelle zu veranschaulichen. Hier sehen wir die drei Iterationen und jeweils hochgerechnet mit einem gleitenden Prompt (siehe vorherige Abbildung) und einem nicht gleitenden Prompt. Auch wenn ich es nicht normiert habe, was sicherlich sauberer, aber weniger realistisch wäre, sieht man, dass durch den gleitenden Prompt in der zweiten Iteration 33 zusätzliche Token und in der dritten 150 zusätzliche Token hinzukommen. Es wäre möglich, die Token pro Zusammenfassung stabil zu halten, aber das würde nicht viel mehr Information hinzufügen. Ich schließe daraus, dass dieser Ansatz zu einem nichtlinearen Anstieg der Kosten führen würde.

Übersicht über die Token-Steigerung

Iteration Nr. Gleitender Prompt Nicht-gleitender Prompt
1 395 395
2 442 (33) 409
3 520 (150) 370

Herausforderung: Verarbeitungszeit und Halluzination

Aus dem vorhergehenden Abschnitt lässt sich bereits erahnen, dass die gleitende Zusammenfassung nicht nur schnell teurer werden dürfte, sondern auch ein Maximum an Bearbeitungsgeschwindigkeit mit sich bringt. Da jede Zusammenfassung in den nächsten Arbeitsschritt übernommen werden muss, ist eine Parallelisierung faktisch nicht möglich. Je länger der zusammenzufassende Text ist, desto mehr Iterationen sind wahrscheinlich, was wiederum die Gesamtlaufzeit verlängert.

Halluzinationen sind spätestens seit der missglückten Bard-Marketingveranstaltung ein bekanntes Problem der LLM. Es handelt sich um die Wiedergabe von Informationen, die nicht korrekt sind. Es besteht die Gefahr, dass ein Sprachmodell in der Zusammenfassung Dinge hinzufügt, die im Inputtext gar nicht vorhanden waren. Eine mögliche Abhilfemaßnahme besteht darin, zu prüfen, ob die generierte Zusammenfassung tatsächlich durch Aktivierung aus dem Inputinhalt erzeugt werden konnte. Mittels eines zu definierenden Schwellenwertes können so Zusammenfassungen mit geringer Aktivierung von der weiteren Verarbeitung ausgeschlossen und kann damit die Gefahr von Halluzinationen gemindert werden.


Abbildung 6: Luminous Explain

Zusammenfassung und Ausblick

Das Requirements Engineering kann sehr spannend sein, wenn es darum geht, mit den Kundinnen und Kunden eine geeignete Zusammenfassung zu definieren. Die Performance kann nicht von der Größe des Kontextfensters der LLMs abgeleitet werden und die Kosten können schnell exponentiell ansteigen. In diesem Blog-Beitrag habe ich mich einigen Voraussetzungen und Gegebenheiten gewidmet und werde im zweiten Teil die technischen Herausforderungen und unseren industrialisierbaren Lösungsvorschlag vorstellen.

Ihr möchtet gern mehr über spannende Themen aus der adesso-Welt erfahren? Dann werft auch einen Blick in unsere bisher erschienenen Blog-Beiträge.

Auch interessant:

Bild Lilian  Do Khac

Autorin Lilian Do Khac

Lilian Do Khac beschäftigt sich mit der Konzeption und Implementierung von KI-Lösungen für die datengetriebene Entscheidungsunterstützung. Trustworthy-AI-Anforderungen spielen dabei eine signifikante Rolle. In diesem Bereich ist sie nicht nur aus IT-Implementierungssicht unterwegs, sondern auch als Wissenschaftlerin.

Diese Seite speichern. Diese Seite entfernen.