POMA AI erreicht branchenführende RAG-Chunking- und Dokumentenaufnahme mit 77 % Token-Reduktion gegenüber konventionellen Modellen

(SeaPRwire) –   Intelligentes hierarchisches Chunking ist die optimale Datenvorbereitung für Vektordatenbank-Embeddings

Berlin, BERLIN, 16. März 2026 — POMA AI, ein in Berlin ansässiges Dokumentenintelligenz-Unternehmen, hat heute POMA-OfficeQA veröffentlicht, ein Open-Source-Benchmark, der zeigt, dass sein strukturbewusstes Dokument-Chunking die RAG-Retrievalkosten um 77% reduziert im Vergleich zu sowohl naiven Textaufteilungen als auch Unstructured.io’s Elementextraktionsansatz.

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

Out of the box verwendet POMA PrimeCut 77% weniger Tokens als konventionelle Modelle. Der Wert steigt auf 83% bei Verwendung angepasster Konfigurationen.

„Jedes RAG-System in Produktion verliert heute Informationen, bevor das Modell sie überhaupt sieht“, sagte Dr. Alexander Kihm, Gründer und CEO von POMA AI. „Die Branche hat Embeddings, Reranker und Prompt-Engineering optimiert, aber die Ingestion-Schicht ist der Ort, wo die meisten Retrieval-Fehler tatsächlich entstehen. Dieser Benchmark quantifiziert, was Praktiker intuitiv gefühlt haben: Strukturbewusstes Chunking ist die Grundlage, die alles Downstream tatsächlich funktionieren lässt.“

Der vollständige Benchmark, verfügbar auf GitHub, testete drei Dokument-Chunking-Strategien für Retrieval-Augmented Generation (RAG) unter Verwendung identischer Embeddings, identischer Retrievallogik und 20 Tabellenabfragefragen über 14 U.S. Treasury Bulletins (~2.150 Seiten). Der Test messte die Fähigkeit jeder Methode, alle Beweise zu retrievieren, die erforderlich sind, um faktische Fragen korrekt zu beantworten, wobei die Metrik (Context Recall) das minimale Token-Budget angibt, das ein Retrievalsystem benötigt, um sicherzustellen, dass alle Beweise im abgerufenen Kontext verfügbar sind.

Die Ergebnisse zeigten, dass POMA’s hierarchisches Chunking – das Dokumentstrukturen einschließlich Tabellenköpfen, Abschnittshierarchien und semantischer Beziehungen zwischen Inhaltselementen bewahrt – 77% weniger Tokens benötigte, um 100% Context Recall zu erreichen:

  • Baseline (naives Chunking mit 500 Tokens, 100 Überlappung): 1,45 Millionen
  • Unstructured.io (Elementextraktion: 1,48 Millionen
  • POMA AI (strukturbewusst): 340k

Alle Methoden verwendeten OpenAI’s text-embedding-3-large-Modell für Embeddings und Kosinusähnlichkeit für Retrieval-Ranking. Die Ground Truth wurde unter Verwendung exakter Chunk-Indizes etabliert, die gegen Quellokumente verifiziert wurden – wodurch Fehlpositivitäten aus zufälligen numerischen Übereinstimmungen eliminiert wurden. Nur Fragen, die von allen drei Methoden beantwortet werden konnten, wurden aufgenommen, um einen fairen Vergleich zu gewährleisten. Fragen, bei denen eine Methode Extraktionsfehler hatte (OCR-Fehler, fehlende Werte), wurden ausgeschlossen.

„Was uns von POMA überzeugt hat, war die ingenieurtechnische Strenge hinter einem scheinbar einfachen Einblick“, sagte Till Faida, Mitgründer von AdBlock und Investor sowie Berater von POMA AI. „Sie haben sich auf die Ingestion-Schicht konzentriert, die Teil der Pipeline ist, von der jeder annimmt, dass sie ein gelöstes Problem ist. Dieser Benchmark zeigt, dass das nicht der Fall ist. Eine 77%ige Token-Reduktion verändert die Ökonomie des Betriebs von RAG im Enterprise-Maßstab. Das ist die Art von strukturellem Vorteil, nach dem wir suchen.“

ÜBER POMA AI: POMA AI ist ein in Berlin ansässiges Dokumentenintelligenz-Unternehmen, das Infrastruktur für Enterprise-RAG-Systeme baut. Seine Kerntechnologie wandelt komplexe Dokumente in semantisch kohärente Chunks um, die für Vektor-Suche und LLM-Verarbeitung bereit sind. POMA’s API verarbeitet Dokumente in einem einzigen Aufruf und gibt sowohl granulare Chunks als auch gruppierte Chunksets aus, die mit jedem Embedding-Modell und Vektor-Store kompatibel sind. Die kostenlose Demo ist auf der Website von POMA AI verfügbar. Weitere Informationen über POMA AI finden Sie auf LinkedIn oder X (Twitter).

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

Die strukturbewussten Embeddings von POMA PrimeCut zeigten eine 119-fache Verbesserung gegenüber kontext-only Embeddings.

Pressekontakt

Florian Athens
fa [at] poma-ai.com
https://poma-ai.com

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.