O Linked Data

Cílem každé organizace je, aby její zaměstnanci či zákazníci měli potřebné informace (data, master data) kdykoliv je potřebují a v požadované kvalitě. Bohužel, data jsou typicky rozstříštěna na různých místech a v různých datových formátech (relační databáze využívající různá schémata, textové soubory od různých autorů, tabulková data z různých let) a nejsou vzájemně propojena (integrována). Tato situace vede např. k redundantním datům (data o jednom a tom samém zákazníkovi ve více databázích), obtížné či chybné analýze současné finanční situace (výsledkem manuálního párování uskutečněných prodejů a přijatých faktur).

Ano, hovoříme tu o datové integraci. V případě její absence vzniká chaos, který přináší firmě nemalé přímé i nepřímé finanční ztráty - inzerce je posílána zákazníkovi vícekrát, neintegrovaná data vedou ke zkreslené analýze trhu atd. Navíc, v případě nutnosti pracovat s daty z více zdrojů (relační databáze, XML soubory), je třeba vyhradit a zaplatit pracovní síly na manuální ad-hoc integraci požadovaných dat.

Řešení? Publikujte a vůbec pracujte s daty dle principů Linked Data. Stačí pro to splnit následující tři kroky:

  • Definovat jednoznačné HTTP identifikátory (URI) pro master data (zákazník, produkt, faktura atd.)
  • Publikovat data a datové modely v RDF datovém modelu, který umožní strojovou čitelnost dat (aplikace datům "rozumí")
  • Prolinkovat (integrovat) strojově čitelná a unikátně identifikovaná data z předchozích dvou kroků.

Výsledkem je jednotný datový prostor (tzv. Linking Open Data Cloud), nad kterým je možné se dotazovat a který umožní vyvíjet aplikace pracující se všemi Vašimi daty jednotným způsobem. Strojová čitelnost publikovaných dat navíc přináší možnosti automatického propojování a čištění dat, případně přináší pokročilé možnosti vyhledávání v datech, které zdaleka překračují možnosti vyhledávání dle klíčových slov. Dobrá zpráva je, že existuje řada nástrojů, které Vám proces ukládání, publikování, linkování, či dotazování nad Linked Daty usnadní. Je naším úkolem a posláním, abychom Vás s těmito nástroji naučili pracovat.

Proč se nebát publikovat data jako Linked Data?

  • Netřeba zahazovat současné relační databáze či jiné datové zdroje ve firmě - je možné pouze vytvořit Linked Data wrapper nad datovými zdroji, který umožní pracovat s těmito daty jako s Linked Daty.
  • Na Linked Data je možné přecházet postupně, v jednotlivých iteracích, při plném zachování funkčnosti ostatních systémů
  • Široká paleta Linked Data nástrojů pro ukládání, čištění, linkování, publikování a dotazování nad daty.
  • Linked Data nástroje se používají v řadě komerčních projektů, nejedná se o akademické prototypy.

Čím se liší použití Linked Datových nástrojů od datových warehousů?

  • Linked Data nástroje pro datovou integraci jsou typicky zdarma
  • Nejste vázáni na jednoho výrobce datových warehousů, lze si vybrat z vícero Linked Data nástrojů pro podobný účel
  • Díky unikátním identifikátorům a otevřenému standardu je možné integrovat volně dostupné datové zdroje ve veřejném datovém prostoru (vládní data, encyklopedická, statistická data atd.). Objem těchto dat již v současné době pravděpodobně několikasetnásobně převyšuje objem Vašich dat.