OpenCitations Data Model Adaptation

Updated 24 August 2025

OpenCitations Data Model Adaptation is a framework that uses Semantic Web technologies to represent citations and bibliographic metadata as first-class entities.
Its modular ingestion workflows and deduplication strategies ensure precise mapping and persistent identification of scholarly records.
Adaptations incorporate robust provenance tracking, real-time validation, and cross-domain interoperability to support diverse research and cultural heritage applications.

OpenCitations Data Model Adaptation encompasses the systematic extension and specialization of the OpenCitations Data Model (OCDM) to support diverse use cases across scholarly communication, research assessment, digital humanities, cultural heritage, and institutional repositories. OCDM, rooted in Semantic Web technologies and the SPAR Ontologies, offers a robust framework for representing bibliographic resources, citations as first-class entities, provenance chains, and change-tracking mechanisms. Its adaptations span ingestion workflows, persistent identifier management, cross-domain interoperability, validation infrastructures, and user-centric semantic data management.

1. Foundations and Architectural Extensions

The fundamental paradigm underlying OCDM is the modeling of citations as first-class entities in RDF, typically instantiating each citation as an explicit cito:Citation resource and equipping it with associated metadata and provenance (Heibi et al., 2019, Daquino et al., 2020). OCDM aggregates terms from CiTO, FaBiO, DataCite, PROV-O, and Web Annotation ontologies, supporting granular representation of citation attributes (creation date, timespan, self-citation type), bibliographic metadata (e.g., title, venue, identifiers such as DOI, PMID, ISBN), agent roles, and in-text reference pointers (Peroni et al., 2019, Daquino et al., 2020).

Key architectural extensions include:

Citation as Individual Resource: Each citation is modeled as an RDF resource rather than a mere binary relation, facilitating the annotation of creation date (cito:hasCitationCreationDate), temporal span (cito:hasCitationTimeSpan), and self-citation classification (cito:JournalSelfCitation, cito:AuthorSelfCitation) (Heibi et al., 2019).
Provenance and Change Tracking: Change history is documented by chaining snapshots using PROV-O (prov:wasAttributedTo, prov:generatedAtTime, and custom predicates such as oco:hasUpdateQuery for SPARQL diff representation) (Massari et al., 2023, Massari et al., 2023).
Federated and Modular Architecture: The model enables distributed triplestores for distinct data classes (citations, metadata, annotation/context), thereby enhancing scalability and reliability (Peroni et al., 2019, Daquino et al., 2020).

2. Ingestion Workflows and Deduplication Strategies

OCDM adaptation in large-scale settings relies on multi-phase ingestion and rigorous deduplication (Heibi et al., 2024, Massari et al., 2023):

Stage	Function	Data Model Adaptation
Source Preprocess	Extracts metadata/citations, normalizes identifier formats	Identifier casefolding, pattern validation
Meta Process	Entities mapped to internal unique OMIDs via OpenCitations Meta	OMID assignment, cross-source reconciliation
Index Process	Citation links converted to OMID-to-OMID relations	Integration of provenance, timespan, and citation attributes

Significance:

Persistent Identifier Strategy: The OMID system (OpenCitations Meta Identifier) abstracts external PIDs, consolidating bibliographic entities from disparate sources (DOI, PMID, ISSN, ISBN, etc.) for unambiguous deduplication (Massari et al., 2023, Heibi et al., 2024).
Automated Validation: Ingestion workflows employ validation tools that enforce OCDM-prescribed syntax, identifier existence, and semantic coherence, facilitating high-quality data integration and error detection (Heibi et al., 16 Apr 2025).

3. Data Structures, Interoperability, and Domain-Specific Adaptation

OCDM defines schemas for both bibliographic metadata (META-CSV) and citation relations (CITS-CSV) (Massari et al., 2022, Heibi et al., 16 Apr 2025). Each field is strictly formatted, supporting multi-identifier representation, controlled vocabularies for resource types, and standard date encoding (ISO 8601), thereby simplifying interlinking across heterogeneous sources.

File Type	Columns / Fields	Notable Constraints
META-CSV	id, title, author/editor, pub_date...	Field-level controlled syntax, ID priorities
CITS-CSV	citing_id, cited_id, pub dates	Consistency across identifier formats

Domain adaptation examples:

Books and Editions: The model is tailored to group monographs, chapters, and edited books, but recommendations call for explicit isEditionOf/hasEdition relationships and non-DOI ID integration for improved book-based analysis (Zhu et al., 2019).
Classical Philology (ParaText): SHACL-based extensions within HERITRACE facilitate domain-specific classification (e.g., “D-scholia”, “VMK-scholia”), real-time validation, and user interface generation; provenance is tracked with snapshot-based versioning (Filograsso et al., 21 Aug 2025).

4. Provenance Representation and Change Management

OCDM employs robust provenance modeling and change-tracking mechanisms, essential for auditability and data trustworthiness (Massari et al., 2023, Massari et al., 2023). Each bibliographic entity can have multiple snapshots recording:

Validity periods
Data sources
Responsible agents
Human-readable change descriptions
SPARQL update queries to describe differences between versions

Comparison with alternatives:

Named Graphs and PROV-O: OCDM leverages named graphs (TriG, TriX, N-Quads) for serialization and is fully RDF 1.1 compliant, avoiding triple bloat associated with RDF Reification (Massari et al., 2023).
RDF*: While less verbose, RDF* is not yet a standard, and OCDM remains the preferred approach for scalability and standards compliance.
Domain Models (PREMIS): OCDM is suited for cultural heritage and scholarly domains due to its extensibility and snapshot chaining approach.

5. Access Services, Validation Infrastructures, and Tooling

OCDM-powered datasets are disseminated via SPARQL endpoints, REST APIs (RAMOSE framework), web interfaces (OSCAR, LUCINDA, YASGUI) and bulk download services (CSV, N-Triples, Scholix formats) (Heibi et al., 2019, Heibi et al., 2024, Massari et al., 2023). Validation and monitoring tools are integral to adaptation, providing:

Multi-layered Validation: Syntactic checks (date, identifier formats), semantic rules (PID-type compatibility), and existence confirmation in official registries (Heibi et al., 16 Apr 2025).
Monitoring Workflows: SPARQL-based monitors for post-ingestion quality—detecting duplicates, type mismatches, and provenance integrity (Heibi et al., 16 Apr 2025).
User Feedback: Detailed error messages and graphical outputs support both programmatic and manual curation.

6. Applications, Interoperability, and Assessment Scenarios

OCDM adaptations support a range of practical applications:

Bibliometric Tools: VOSviewer, Citation Gecko, OCI Graphe, and Zotero plugins for literature mapping and network construction directly leverage COCI/OC Meta data via REST APIs (Heibi et al., 2019).
Institutional Coverage Analysis: Systematic mapping of CRIS systems (e.g., University of Bologna’s IRIS) to OpenCitations via PID-normalization, deduplication, semantic alignment, and citation impact quantification (Andreose et al., 10 Jan 2025).
Research Assessment: NSQ simulation demonstrates how OCDM-backed knowledge graphs can compute metrics (article counts, h-index, citation totals) and support federated enrichment across scientific domains (Bologna et al., 2021). Formulas for evaluation, such as $h = \max\{k \in \mathbb{N}: c_k \geq k\}$ , appear in these scenarios.

A plausible implication is that OCDM’s extensibility and federated infrastructure can bring open citation data quality near to that of commercial indexes, contingent on ongoing coverage expansion and semantic interoperability across domain vocabularies.

7. Future Directions and Ongoing Challenges

Planned OCDM adaptations (Heibi et al., 2019, Peroni et al., 2019, Massari et al., 2023) include:

Expansion to ingest and reconcile any-to-any citation links, integrating sources beyond traditional DOI-centric datasets (e.g., Wikidata, DataCite, Dryad).
Extension of the model’s semantic base for multidisciplinary interoperability, backed by community-driven specifications (EOSC Interoperability Framework, RDA SKG-IF WG).
Crowdsourcing bibliographic metadata submissions, necessitating automated real-time validation and provenance tracking infrastructures (Heibi et al., 16 Apr 2025).
Regular protocol updates for institutional and cross-domain coverage (e.g., plugins for CRIS integration, improved mapping for publication types across systems).
Enhanced change management and snapshot versioning, ensuring data integrity and auditability for reclassification and correction events, especially in humanities and cultural heritage contexts.

Persistent challenges relate to maintaining semantic alignment across heterogeneous record types, coping with incomplete coverage and publisher non-participation, and designing scalable provenance and validation frameworks that interoperate across disciplinary boundaries while facilitating open, reproducible scholarly communication.