Zum Inhalt springen →

jentsch.io Beiträge

Warum es sich lohnt, LLMs auch lokal laufen lassen zu können

Weil die Online Dienste nicht immer verfügbar sind. Da ist etwas schiefgelaufen Bitte versuche, diese Seite neu zu laden oder schließe dein Browserfenster und öffne es erneut. https://www.meta.ai/ Das zeigt mir gerade die meta.ai Webseite. Habe es mit unterschiedlichen Browsersn und auf verschiedenen Computern versucht – leider ohne Erfolg. Also bleibt nur, Meta-Llama-3-70B-Instruct herunterladen und in 4-Bit auf dem Jetson Orin Dev. Board laufen lassen. Leider ist der Download sehr groß und ich kann das Meta-Llama-3-70B-Instruct noch nicht lokal laufen lassen, da der Download noch ca. 25 Stunden benötigt. 🙁 Also abwarten und Tee trinken …..

Kommentare sind geschlossen.

Leistungstest des Mixtral-8x22B-Instruct-v0.1.Q2_K.gguf Modells auf dem Jetson Orin 64 GB Developer Board

Mich interessiert der Einsatz des Mixtral-8x22B-Instruct-v0.1 Modells, von MistralAI, auf einem Jetson Orin 64 GB Developer Board in der Q2_K gguf Version. „Q2_K“ bezieht sich auf eine spezifische Art der Quantisierung innerhalb des Modellformats oder der Modellarchitektur, die im gguf-Format (General GPU Format) verwendet wird. Quantisierung sorg für geringeren Speicherverbrauch und schnellerer Verarbeitung, was besonders nützlich ist bei der Bereitstellung von Modellen auf Hardware mit begrenzten Ressourcen oder für Echtzeitanwendungen. Mixtral-8x22B-Instruct-v0.1 Das Mixtral-8x22B-Instruct-v0.1 ist ein hochmodernes Modell, das speziell für Aufgaben im Bereich der Instruktionserfüllung konzipiert wurde. Für den Test habe ich es auf einem NVIDIA Jetson Orin 64 GB Developer Board geladen, einer Plattform, die für ihre leistungsstarken Rechenfähigkeiten und Optimierung für maschinelles Lernen bekannt ist. JETSON AGX ORIN…

Kommentare sind geschlossen.

Auswirkungen der Quantisierung auf die Perplexität von Large Language Modellen

Ein Schlüsselaspekt bei der Nutzung von großen LLMs (Large Language Modellen) wie dem C4AI Command R+ ist die Quantisierung der Modellparameter, die es ermöglicht, die Größe der Modelle erheblich zu reduzieren, ohne dabei die Genauigkeit und Leistungsfähigkeit signifikant zu beeinträchtigen. Durch die Anwendung dieser Methode können die Modelle auch auf Hardware mit beschränkten Ressourcen eingesetzt werden. Quantisierung von LLMs Die Quantisierung von LLMs (Large Language Modellen) ist ein Verfahren, bei dem die Größe und Komplexität dieser Modelle reduziert werden, um sie effizienter zu machen. Hierbei hat in letzter Zeit vor allem die GGUF-Quantisierung dazu beigetragen, eine breitere Nutzung und Demokratisierung des Zugangs zu diesen leistungsstarken Modellen zu ermöglichen. GGUF wurde speziell für das schnelle Laden und Speichern von Modellen entworfen. Es ist…

Kommentare sind geschlossen.

300% Performance durch Batch-Textgenerierung

Durch die Bündelung mehrerer Texte in einem Batch und deren gleichzeitige Verarbeitung kann die Verarbeitungsgeschwindigkeit deutlich gesteigert und die Ressourcennutzung optimiert werden. Durch die die Parallelisierung auf einer GPU ist eine effizientere Auslastung der Hardware möglich, was insgesamt zu einer verbesserten Geschwindigkeit führt. Dieser Ansatz ist besonders vorteilhaft für Anwendungen, die große Mengen von Texten generieren müssen, wie beispielsweise bei der automatisierten Erstellung von synthetisch generierten Daten zum Trainieren von KI-Modellen. Die Parallelisierung der Batch-Textgenerierung auf einer GPU bietet folgende Vorteile: GPUs sind darauf ausgelegt, große Datenmengen parallel zu verarbeiten. Durch die Parallelisierung können mehrere Textgenerierungsaufgaben gleichzeitig ausgeführt werden, was zu einer erheblichen Beschleunigung führen kann. Ohne diese Parallelisierung könnten Teile der GPU während der Inferenz ungenutzt bleiben, da einige…

Kommentare sind geschlossen.

Welche Antwort bevorzugen Sie? Ihre Wahl hilft dabei, ChatGPT zu verbessern.

Das ist neu. ChatGPT erzeugt 2 Varianten einer Antwort und fragt: „Welche Antwort bevorzugen Sie?“. Ich habe das jedenfalls so noch nicht gesehen, obwohl ich ChatGPT mittlerweile durch mittlerweile recht häufig nutze. Welche Antwort bevorzugen Sie? Ihre Wahl hilft dabei, ChatGPT zu verbessern. ChatGPT Diese Form des RLFHF (Reinforcement learning from human feedback) ist neu. Aber keine schlechte Idee. Als Nutzer darf man den ChatCPT Dienst kostenlos nutzen aber hilft dabei, ChatGPT besser zu machen. In dem obigen Beispiel ist der Unterscheid zwar sehr minimal und eigentlich sind beide Lösungen nahezu identisch, aber ich wähle die rechte Version. Eigentlich eine gute Möglichkeit, etwas zurück zu geben, da OpenAI das Feedback in die nächste Version der KI einfließen lassen kann um…

Kommentare sind geschlossen.

babylon.js GUI-Editor offline verwenden

Um den Babylon.js GUI-Editor offline zu verwenden, zuerst sichergestellt werden, dass alle erforderlichen Komponenten lokal auf Ihrem Computer installiert sind. Anschließend kann man den Editor ohne Internetverbindung starten und damit arbeiten, ohne auf eine Online-Verbindung angewiesen zu sein. Wie das genau von Statten geht beschreibe ich in dieser kleinen Anleitung Was ist der Babylon.js GUI Editor? Babylon.js ist eine umfangreiche Open-Source-Bibliothek für die Entwicklung von 3D-Web-Anwendungen. Der GUI Editor ist eine Erweiterung dieser Bibliothek, die speziell darauf ausgerichtet ist, die Gestaltung und Implementierung von Benutzeroberflächen in Babylon.js-Projekten zu vereinfachen. Mit dem Babylon.js GUI Editor kann man 2D-Elemente wie Schaltflächen, Textfelder, Listen, Slider und mehr erstellen, positionieren und anpassen. Diese Elemente können in eine 3D-Szene integriert werden, um interaktive Benutzeroberflächen für…

Kommentare sind geschlossen.

Pytorch Speicherprobleme analysieren und beheben

CUDA out of memory. Tried to allocate 3.73 GiB. GPU 0 has a total capacty of 14.75 GiB of which 3.45 GiB is free. Process 9648 has 11.29 GiB memory in use. Of the allocated memory 11.18 GiB is allocated by PyTorch, and 1.91 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF Die Fehlermeldung „CUDA out of memory“ hat vermutlich Jeder schon mal gesehen, der versucht hat, größere LLMs auf einer Consumer-GPU laufen zu lassen. Der Fehler besagt, dass der Speicher auf der Grafikkarte knapp wird und keine weiteren Ressourcen für die aktuelle Operation zur Verfügung stehen. Moderne Grafikkarten von NVIDIA…

Kommentare sind geschlossen.

Die Macht der Parameter in der Huggingface Transformer-Textgenerierung

Die Huggingface Transformer-Methode „generate“ ist eine einfache Möglichkeit mit einem der aktuell 66.987 text-generation Modelle, automatisch Texte zu generieren. Dazu kann man z.B. folgenden einfachen Python code verwenden. Der Code lädt ein Model und den Tokenizer von Huggingface und führ die Inference auf einer CUDA kompatiblen NVIDIA GPU aus. Die Methode „model.generate()“ kann aber noch viel mehr. Die model.generate() Methode nimmt noch folgende optionale Parameter entgegen, mit denen man das Generieren der Antwort vom Text-Generation Model noch optimieren kann. Huggingface Transformer model.generate Parameter max_length: Die maximale Länge der zu generierenden Sequenz. Standardmäßig auf 20 gesetzt. Ein paar Beispiele Im Folgenden werde ich anhand von ein paar Beispielen einige der Parameter exemplarisch erläutern und ihre Funktionen im Kontext der Generierung von…

Kommentare sind geschlossen.

xLSTM von Sepp Hochreiter ist fast da

Im „INDUSTRIAL AI PODCAST“ #230 vom 05.02.2024 war Sepp Hochreiter zusammen mir Johannes Brandstetter zu Gast, um von einer neuen LLM-Alternative „xLSTM“ zu berichten an der Sepp Hochreiter mit seinem Team gerade arbeitet und das laut Sepp Hochreiter das Potential hat, OpenAI aus dem Markt zu werfen. Noch ist nicht viel bekannt, da die Intellectual Property Rights noch in der Luft hängen, Sepp Hochreiter die Rechte am xLSTM in Europa/Österreich halten möchte und die Technologie noch nicht patentiert ist. Trotzdem habe ich mal versucht, die vorhandenen Informationen und Spekulationen zusammenzutragen. Nehmt es mir also nicht übel, wenn hier etwas nicht ganz korrekt ist bzw. sich noch ändert. Vieles davon sind Halbwahrheiten bzw. Gerüchte. Aber was genau ist xLSTM? Das neue…

Kommentare sind geschlossen.

CodeFuse-DeepSeek-33b in 4bit auf dem Jetson Orin laufen lassen

Beim Surfen bin ich auf ein mir bisher unbekanntes Huggingface Leaderboard aufmerksam geworden, dass sich speziell auf „Big Code Models“ konzentriert und die Leistung Multi-Language Code-Generierungsmodellen anhand des HumanEval und des MultiPL-E Benchmarks vergleicht. https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard Unter den Top-10 findet man die üblichen Verdächtigen. Aber auf Platz 1 steht CodeFuse-DeepSeek-33b. Davon habe ich bisher noch nichts gehört. Es erreicht 60.76 bei der Programmiersprache Java und übertrifft sogar DeepSeek-Coder-33b-instruct (52.03) und CodeLlama-70b (44.72). Grund genug sich CodeFuse-DeepSeek-33b mal genauer anzusehen. CodeFuse-DeepSeek-33b Unter https://huggingface.co/codefuse-ai/CodeFuse-DeepSeek-33B-4bits kann man lesen, dass CodeFuse-DeepSeek-33B ein 33B Code-LLM ist, das mit Hilfe von QLoRA anhand mehrerer codebezogenen Aufgaben auf dem Basismodell DeepSeek-Coder-33B feingetunt wurde. Das klingt vielversprechend. Die DeepSeek-Coder Familie benutze ich schon relativ lange und habe gute Erfahrungen…

Kommentare sind geschlossen.