Infinity-Parser: Infinite Parsing Methods

Updated 24 October 2025

Infinity-Parser is a computational framework that unifies infinite arithmetic, reinforcement learning, and advanced grammar theories to process unbounded semantic structures.
It employs novel numeral systems and CPS combinators to enable bidirectional parsing and perform arithmetic operations on infinite and infinitesimal quantities.
The approach achieves robust performance on document recognition benchmarks by optimizing multi-aspect rewards and leveraging performance prediction models for universal parser selection.

Infinity-Parser refers to computational systems, algorithmic frameworks, and formal theories that facilitate parsing, manipulation, or analysis of structures involving infinite, infinitesimal, or unboundedly rich semantics. This concept spans document parsing in Vision-LLMs (VLMs), applied numerics for infinite quantities, and advanced formal grammar technologies, as evidenced in "Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing" (Wang et al., 17 Oct 2025), foundational numeration and computation work (Sergeyev, 2012, Sergeyev, 2012), combinator-based invertible parsing (Boespflug et al., 13 Aug 2025), and performance prediction systems for universal parsing (Biçici, 6 Jul 2024). Infinity-Parser emerges both as a practical system for robust document AI and as a general term for parsing methods unbounded in domain, scale, or semantic expressivity.

1. Computational Foundations: Numeral Systems and Infinite Arithmetic

Infinity-Parser methodologies often originate from new computational paradigms capable of encoding, storing, and operating on finite, infinite, and infinitesimal quantities within a unified positional numeral system. The introduction of "grossone" ($\ding{172}$), via the Infinite Unit Axiom (IUA), enables exact arithmetic on quantities outside the traditional real or integer scope (Sergeyev, 2012, Sergeyev, 2012):

$C = c_{p_m}\,\ding{172}^{p_m} + \cdots + c_{p_0}\,\ding{172}^{0} + c_{p_{-1}}\ding{172}^{p_{-1}} + \cdots$

where each coefficient $c_{p_i}$ (a "grossdigit") is a finite numeral, and exponent $p_i$ (a "grosspower") ranges over finite, infinite, or infinitesimal indices. Addition aligns matching exponents’ coefficients, multiplication convolves ‘grosspowers’ and digits, and division generalizes long division to mixed-scale operands. This algebra renders previously indeterminate forms (e.g., $\infty - \infty$ , limit expressions, divergent series) numerically computable, fundamentally altering classical approaches to infinite or infinitesimal calculations.

2. Reinforcement Learning for Layout and Document Structure Parsing

Infinity-Parser as a document AI system (see (Wang et al., 17 Oct 2025, Wang et al., 1 Jun 2025)) utilizes LayoutRL: an end-to-end RL framework for parse extraction from scanned documents, optimizing composite multi-aspect rewards:

Normalized Edit Distance: $R_{\text{dist}} = 1 - D(y, ŷ)/\max(|y|, |ŷ|)$ , where $D(·)$ denotes Levenshtein distance.
Paragraph Count Accuracy: penalizes deviations in paragraph segmentation.
Reading Order Preservation: penalizes sequence inversions with respect to reference order.

This RL training paradigm, using Group Relative Policy Optimization (GRPO), directly adapts VLMs to complex layouted text, figures, formulas, and tables. Model outputs (e.g., in Markdown or HTML) are treated as atomic answers, and improvements occur solely via reward feedback that integrates semantic and structural correctness.

Dataset Scale and Diversity

Infinity-Parser systems are trained on large, structurally varied datasets such as Infinity-Doc-400K (Wang et al., 17 Oct 2025), which contains both real-world and synthetic annotations. This dataset construction employs pseudo-labeling via expert models and strict render-aligned supervision through browser-generated HTML templates. Diversity in document types (financial, medical, academic, literary, synthetic) ensures broad generalization.

3. Algorithmic Paradigms in Grammar and Universal Parsing

Infinity-Parser frameworks generalize traditional parsing via several innovations:

XLR Parsing and Bounded Parallelism

XLR (Zimmerman, 2022) extends classical LR parsing to allow a bounded number $t$ of nondeterministic shifts/reduces upon grammar conflicts, admitting grammars not strictly LR(k) (canonical). Automata refinement, conflict tracing, and Continuation-Passing Style (CPS) grammar transformation ("tail context" propagation in intermediate nonterminals) make possible efficient practical generation for complex real-world languages.

PEG Parsers and Infinite Recursion Control

Autumn, a PEG library (Laurent et al., 2015), introduces seed-growing algorithms for left-recursive rules: failures are marked to prevent uncontrolled recursion, and parse results iteratively ‘grow’ until no more input is consumed. This explicit handling of operator precedence and associativity at parse time prevents infinite recursion—a practical realization of "infinity-parsing" in the PEG setting.

Invertible Syntax and Bidirectional Parsing

Continuation-Passing Style (CPS) combinators (Boespflug et al., 13 Aug 2025), instead of relying on nested tuples or dependent types, make high-level format descriptions invertible (for both parsing and printing), readily handling inductive structures (lists, trees). The CPS-based approach avoids "tuple troubles," enabling symmetric aggregation of input and output arguments:

$(s \to r) \to (a \to b \to r) \quad \textrm{vs.} \quad (a \to b \to r) \to (s \to r)$

This paradigm streamlines bidirectional parser/printer APIs for arbitrarily expressive languages and data structures.

4. Performance Prediction and Universal Applicability

Parser performance prediction systems (e.g., MTPPS-PPP (Biçici, 6 Jul 2024)) are parser-independent, relying solely on extrinsic textual features (n-grams, LLMs), link structure (unsupervised parser outputs), and tree geometry (bracketing, depth, branching ratios), plus comparative F $_1$ -score:

$CF_1(p) = \frac{1}{|P|-1} \sum_{p_i \in P, p_i \ne p} F_1(p, p_i)$

Such models estimate parse quality prior to actual parsing, support parser selection, and generalize across domains and languages. For instance, MTPPS-PPP reports state-of-the-art MAE ($0.0678$) and RAE ($0.85$), with prediction error around $7.4\%$ over top parsers on WSJ23 (Biçici, 6 Jul 2024).

5. Formal Systems and Theoretical Boundaries

Infinity-Parser approaches intersect with formal systems for universal quantification and reduction. De Bruijn’s universal abstraction ( $\lambda^\infty$ ), as in (Guidi, 2019), supports quantified schematic variables in predicative typed $\lambda$ -calculi. The calculus attains confluence, strong normalization, and type preservation—with explicit substitutions and cast annotations, critical for parsing or transforming infinite families of terms.

Additionally, dynamic interpretations of infinity (potential infinite vs actual infinite) (Eberl, 2022) assert that parsing semantics for infinite objects should be constructed via finite, extensible approximations, not completed sets—an important distinction when considering infinity-parsing in model-theoretic frameworks.

6. Applications, Benchmarks, and Impact

Infinity-Parser systems exhibit robust performance on domain-diverse benchmarks:

Task	Metric	Value/Claim
Text Recognition	Normalized Edit Distance	~0.104 avg error (Wang et al., 17 Oct 2025)
Table Recognition	Overall TEDS	> 86.4 (Wang et al., 17 Oct 2025)
Performance Prediction	MAE / RAE (WSJ23)	0.0678 / 0.85 (Biçici, 6 Jul 2024)

Infinity-Parser models surpass specialist pipelines and general VLMs in OCR, table extraction, formula recognition, and layout reconstruction. Composite RL rewards enforce correct semantic transcription and document structure, state-of-the-art accuracy, and adaptability across language and layout types.

7. Future Directions and Research Prospects

Scaling Infinity-Parser frameworks involves:

Enlarging datasets for increased document diversity.
Refining multi-aspect rewards to better align with structure and human judgment.
Integrating with multimodal pre-training and auxiliary semantic/segmentation tasks.
Extending performance prediction to truly universal (multi-language, multi-domain) parser selection and diagnostics.
Formalizing parsing semantics for infinite constructs in dynamic model-theoretic and typed $\lambda$ -calculus systems.

Infinity-Parser systems and datasets are being released for reproducibility, supporting continued research in document AI, formal parsing, and computational infinity.

Infinity-Parser encapsulates a body of computational, algorithmic, and formal approaches that systematically enable parsing, manipulation, and mathematical modeling of infinite, infinitesimal, or highly structured data across domains, unifying numerics, reinforcement learning, grammar theory, and formal logic. It provides foundational infrastructure for robust, adaptable, and universal parsing necessary in both theoretical and applied computational science.