links

Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion noon99jaki.github.io pdf

Web-scale probabilistic knowledge base that automatically fuses extracted facts from Web content with prior knowledge from existing knowledge bases (Freebase, OpenCyc, Wikidata) using a supervised machine learning pipeline combining extractions, graph-based inference, and calibrated confidence scoring. The system ingests 1.6 billion candidate facts, assigns calibrated probabilities via classifier ensembles and embedding-based propagation, and achieves a corpus of 271 million facts with ≥0.7 confidence—surpassing Freebase's human-curated 350 million facts in breadth while maintaining measurable precision. This architecture enables automated, continuously updated entity-attribute resolution at crawl scale, directly powering entity disambiguation, Knowledge Graph population, and confidence-weighted fact retrieval without reliance on manual curation bottlenecks.