Große Sprachmodelle lokal auszuführen war noch nie so einfach. Ollama ist ein Open-Source-Tool, das Modell-Downloads, GPU-Beschleunigung, API-Serving und Prompt-Formatierung in einer einzigen CLI vereint – damit kannst du Modelle wie Llama 3, Mistral und DeepSeek vollständig auf deiner eigenen Hardware betreiben. In Kombination mit WordStructor erhältst du eine vollständig private, offline-fähige Buchgenerierungs-Pipeline ohne wiederkehrende API-Kosten.
Warum auf lokale KI setzen? Drei Gründe stechen hervor. Erstens, Datenschutz – deine Manuskriptdaten verlassen niemals deinen Rechner. Kein Cloud-Anbieter protokolliert deine Prompts oder speichert deine Inhalte. Zweitens, Kosten – nach der einmaligen Hardware-Investition kannst du unbegrenzt Bücher generieren, ohne Gebühren pro Token. Drittens, Offline-Verfügbarkeit – Ollama funktioniert vollständig ohne Internet, ideal für Reisen oder abgeschottete Umgebungen.
Ollama installieren
Ollama unterstützt Windows, Linux und macOS. Auf Windows lädst du den Installer von ollama.com/download herunter und führst OllamaSetup.exe aus. Es installiert sich als Systemdienst und wird zur PATH-Umgebungsvariable hinzugefügt. Auf Linux verwendest du den Einzeiler curl -fsSL https://ollama.com/install.sh | sh – er richtet APT/RPM-Repos ein, installiert die Binärdatei und konfiguriert einen systemd-Dienst. Auf macOS lädst du die .dmg herunter oder verwendest brew install ollama.
Überprüfe deine Installation mit ollama --version in einem Terminal. Der Ollama-Server startet automatisch als Hintergrunddienst und lauscht auf http://localhost:11434.
Das erste Modell herunterladen und ausführen
Um ein Modell zu ziehen und auszuführen, verwendest du den Befehl ollama run. Für den Start mit Llama 3.1 8B (einem ausgewogenen 4,7-GB-Modell):
ollama run llama3.1:8b
Ollama lädt das Modell beim ersten Aufruf herunter und öffnet dann eine interaktive Chat-Sitzung. Gib /exit ein, um sie zu beenden. Für die nicht-interaktive Nutzung übergibst du einen Prompt direkt:
ollama run mistral:7b "Fasse die wichtigsten Vorteile lokaler KI zusammen."
Beliebte Modelle sind llama3.1:8b (der beste Allrounder), mistral:7b (schnell, großartig für Code und strukturierte Aufgaben), mixtral:8x7b (hohe Qualität durch Mixture-of-Experts), deepseek-coder-v2 (spezialisiert auf Code-Generierung) und gemma2:9b (starke Argumentationsfähigkeiten von Google). Für die meisten Buchgenerierungsaufgaben startest du mit mistral:7b oder llama3.1:8b und wechselst zu mixtral:8x7b für höhere Konsistenz bei längeren Kapiteln.
Ollama mit WordStructor verbinden
WordStructor unterstützt jeden OpenAI-kompatiblen API-Endpunkt, was bedeutet, dass Ollama sich nahtlos integrieren lässt. In den WordStructor-Einstellungen wählst du AI Model → Custom Provider und gibst http://localhost:11434/v1 als API-URL ein. Wähle dein bevorzugtes Modell aus dem Dropdown und speichere die Einstellungen.
Alternativ konfigurierst du es über die .env-Datei von WordStructor:
LLM_PROVIDER=ollama
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3.1:8b
Nach der Verbindung leitet WordStructor alle KI-Anfragen durch deine lokale Ollama-Instanz. Kapitel, Gliederungen, Figurenprofile und Recherchezusammenfassungen werden alle auf deinem Rechner generiert – keine Daten gelangen jemals zu einer externen API.
Open WebUI – Eine grafische Oberfläche
Open WebUI ist ein ChatGPT-ähnliches Web-Frontend für Ollama, das Chat-Verlauf, RAG (Dokumenten-Upload), Multi-User-Support und Modellwechsel bietet. Installiere es neben Ollama via Docker:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
Öffne http://localhost:3000, erstelle ein Konto und verbinde es mit deiner Ollama-Instanz. Von dort aus kannst du mit verschiedenen Modellen experimentieren, PDFs für RAG-basierte Recherchen hochladen und Prompts testen, bevor du sie in WordStructor verwendest.
Leistungsoptimierung und bewährte Verfahren
Ollamas Leistung hängt stark von deiner Hardware ab. Für 7-8B-Modelle solltest du 16 GB Systemspeicher und 6-8 GB VRAM anstreben (NVIDIA GPU mit CUDA, AMD mit ROCm oder Apple Silicon mit Metal). Für 70B-Modelle benötigst du 32-64 GB RAM oder 24-48 GB VRAM.
Wichtige Umgebungsvariablen für die Optimierung:
- OLLAMA_NUM_PARALLEL – Anzahl gleichzeitiger Anfragen (Standard: 1). Erhöhe den Wert für höheren Durchsatz beim Batch-Verarbeiten von Buchkapiteln.
- OLLAMA_KEEP_ALIVE – Wie lange ein Modell nach der letzten Anfrage geladen bleibt (Standard: 300s). Setze auf
0, um RAM sofort freizugeben. - OLLAMA_MAX_LOADED_MODELS – Wie viele Modelle gleichzeitig im Speicher bleiben können.
- OLLAMA_HOST – Bind-Addresse. Setze auf
0.0.0.0, um Ollama in deinem lokalen Netzwerk verfügbar zu machen (verwende einen Reverse-Proxy mit TLS für Sicherheit).
Die meisten Modelle in Ollama sind bereits quantisiert (Standard: Q4_K_M), was den Speicherverbrauch im Vergleich zu vollem FP16 etwa halbiert, bei minimalem Qualitätsverlust. Für mehr VRAM-Reserven verwende Q3_K- oder Q2_K-Varianten.
Warum lokale KI für Autoren wichtig ist
Der Betrieb von Ollama mit WordStructor verwandelt deinen Schreibworkflow. Du behältst die vollständige Kontrolle über dein geistiges Eigentum – Manuskripte, Recherchen und Figurennotizen bleiben privat. Es gibt keine Rate-Limits, keine Überraschungsrechnungen und keine Abhängigkeit von der Verfügbarkeit von Drittanbieter-APIs. Ob du einen Roman entwirfst, technische Dokumentation erstellst oder Marketingtexte generierst – lokale KI gibt dir die Freiheit, so oft zu iterieren, wie du möchtest, ohne Einschränkungen.
WordStructors modulare Architektur ermöglicht es dir, jederzeit zwischen lokalen Ollama-Modellen und Cloud-Anbietern zu wechseln. So kannst du lokale Inferenz für Entwürfe (kosteneffizient) und Premium-Cloud-Modelle für die Endbearbeitung nutzen – alles aus derselben Oberfläche.