Rechtenforum.nl :: xml en uitwisseling van juridische data

tot

Afdrukken

Rechtenforum.nl -> Informatie en technologie

#1: xml en uitwisseling van juridische data Auteur: de hacker

Geplaatst: ma 20 nov 2006 21:57
—

Wie interesseert zich voor dit onderwerp? Ik wil eens kijken wie op het forum zich met deze zaken bezighoudt en of er een subkomjoenietje te creeren valt, om vruchtbaar te discussieren.

#2: Auteur: Arnoud Engelfriet

Geplaatst: di 21 nov 2006 0:31
—

Wat zou je willen discussieren dan? Hoe een XML schema voor wetgeving of jurisprudentie er uit moet zien?

Ik vrees wel dat juridische data dusdanig op slot zit (gecontroleerd door meestal 1 uitgever) dat er weinig eer aan een open XML-gebaseerd formaat te behalen zal zijn.

Arnoud

#3: Auteur: de hacker

Geplaatst: di 21 nov 2006 9:37
—

Arnoud Engelfriet schreef:

Wat zou je willen discussieren dan? Hoe een XML schema voor wetgeving of jurisprudentie er uit moet zien?

De discussie over algemeen geldende standaard xml schemas is eigenlijk al 5 jaar geleden gevoerd. LegalXML in de VS heeft dat geprobeerd en het is gebleken dat dat niet haalbaar is. Er bestaan intussen al het een en ander aan schemas voor verschillende vormen van juridische data/documenten (wetgeving, vonnissen, courtfiling, contracten e.a.). Mij interesseert hoe je, ondanks verschillende schemas, systemen, bronnen en structuren, toch tot een betere uitwisseling van de daaruit voortvloeiende data kunt komen. Dat kan een punt van discussie zijn.

Arnoud Engelfriet schreef:

Ik vrees wel dat juridische data dusdanig op slot zit (gecontroleerd door meestal 1 uitgever) dat er weinig eer aan een open XML-gebaseerd formaat te behalen zal zijn.

Arnoud

Uitgevers hebben een grote vinger in de pap, maar hebben geen monopolie op de pap; daarvoor zijn er teveel bronnen. Neem bijvoorbeeld dit forum en Rechtennieuws: een bron waar geen uitgever iets over te zeggen heeft en toenemend belangrijk wordt als bron voor juridische data.

#4: Auteur: Arnoud Engelfriet

Geplaatst: di 21 nov 2006 18:15
—

de hacker schreef:

Neem bijvoorbeeld dit forum en Rechtennieuws: een bron waar geen uitgever iets over te zeggen heeft en toenemend belangrijk wordt als bron voor juridische data.

Ok, wat had je in gedachten dan dat verder gaat dan de RSS feed?

Ik ben benieuwd wat jij dan onder "juridische data" verstaat. Voor wetsartikelen, -wijzigingen en jurisprudentie kan ik het zien, maar dat zit behoorlijk op slot en scrapen van wetten.overheid.nl of rechtspraak.nl gaat niet goed werken. Voor tijdschriftartikelen idem dito. Wat ben je van plan dan? Smile

Arnoud

#5: Auteur: de hacker

Geplaatst: wo 22 nov 2006 10:15
—

Quote:

Ik ben benieuwd wat jij dan onder "juridische data" verstaat.

Onder juridische data versta ik de delen (liefst zo atomair mogelijk) waaruit een document is opgebouwd, waarbij het verband tussen de delen duidelijk gemaakt wordt door een structuur waarin die delen gevat zijn Smile

Klinkt wel leuk, maar of ik dit morgen zelf nog begrijp weet ik niet. Anders gezegd: xml markup + xml schema. Data van een document die op een dergelijke wijze voorzien zijn van een xml structuur (dat kan natuurlijk ook op andere manieren, maar laten we xml als "Obergegriff" voor structurering nemen) kunnen met data uit een ander document vergeleken (meeromvattend: uitgewisseld) worden.

Quote:

Ok, wat had je in gedachten dan dat verder gaat dan de RSS feed?

RSS Feed is een mooi voorbeeld, omdat die data voorzien zijn van XML markup. RDF, Resource Description Framework (http://www.w3.org/TR/REC-rdf-syntax/), waar het (in oorsprong tenminste) mee gemarkupped is, is een XML taal. De data daarvan zijn dus in principe klaar voor uitwisseling. Het probleem is, dat op dit moment het veruit grootste deel van de juridische data van juridische documenten nog niet xml-gestructureerd is. Dat vind ik een grotere uitdaging dan het feit dat wel gestructureerde data nu vaak nog achter slot en grendel zit.

Quote:

Voor wetsartikelen, -wijzigingen en jurisprudentie kan ik het zien, maar dat zit behoorlijk op slot en scrapen van wetten.overheid.nl of rechtspraak.nl gaat niet goed werken. Voor tijdschriftartikelen idem dito.

Wat bedoel je precies met scrapen en waarom gaat dat niet goed werken?

Quote:

Wat ben je van plan dan? Smile

Arnoud

Ik ben met deze vraagstukken een aantal jaren geleden druk bezig geweest, toen lang geen tijd ervoor gehad en nu wil ik met discussie weer wat in beweging brengen. Met welk doel? Precies weet ik dat ook niet, maar bijvoorbeeld, dat juridische documenten steeds vaker, behalve juridisch goed gestructureerd, ook xml-gestructureerd worden. Dat is een eerste stap voor de spannende toekomst van semantic web, web 3.0 of hoe je het maar noemen wil.

#6: Auteur: Arnoud Engelfriet

Geplaatst: za 25 nov 2006 1:59
—

de hacker schreef:

Ok, duidelijk. Dus het structureren van juridische data zodanig dat deze in arbitraire stukjes verwerkt en hergebruikt kan worden.

Quote:

Wat bedoel je precies met scrapen en waarom gaat dat niet goed werken?

Scrapen is dat je uit een uitvoerdocument de oorspronkelijke structuur terughaalt. Grofweg: bij wetten.overheid.nl de HTML-pagina's met de tekst van een wet ophalen en daaruit een XML-pagina met die wet reconstrueren.

Het grote probleem daarbij is dat je vaak heuristisch te werk moet gaan, want je moet uit opmaak structuur halen. En je hebt geen idee wat er volgende week uit komt, want dan zit er ineens een artikel 18a tussen waarbij de leden geletterd ipv genummerd zijn, en daar kan je converteerscript dan weer niet tegen.

Ik noem dit als optie omdat die juridische data dus op slot zit: bij overheid.nl, bij rechtspraak.nl, bij Kluwer en bij die paar andere uitgevers van juridische data. Je kunt die uit publieke databanken trekken, maar dan moet je dus scrapen om structuur (terug) te krijgen. En dat lijkt me geen handige zaak.

Ik denk zelf dat die data allang gestructureerd is, maar dat de uitgevers in kwestie het niet zo willen aanbieden om hun monopolie/controle daarop niet kwijt te raken. Zonder hun medewerking vraag ik me wel heel erg af of je project kans van slagen heeft. Vandaar; wat ben je van plan?

Arnoud

#7: Auteur: de hacker

Geplaatst: zo 26 nov 2006 17:58
—

Arnoud Engelfriet schreef:

Ik denk zelf dat die data allang gestructureerd is, maar dat de uitgevers in kwestie het niet zo willen aanbieden om hun monopolie/controle daarop niet kwijt te raken. Zonder hun medewerking vraag ik me wel heel erg af of je project kans van slagen heeft. Vandaar; wat ben je van plan?

Arnoud

De meeste data van uitgevers zijn van oudsher in SGML gestructureerd en nu in XML. Dat die structuren op het moment nog achter slot en grendel zitten is duidelijk. Ik verwacht dat vroeger of later de uitgevers er toe over zullen gaan, die structuren beetje bij beetje vrij te geven, naarmate er meer en meer niet gemonopoliseerde, openbaar gestructureerde, juridische data via het internet beschikbaar komen. Nogmaals: mij interesseert dat niet zoveel, want die muren vallen vanzelf wel. Ik interesseer mij voor de uitwisseling van de niet gemonopoliseerde data met openbare structuren. Die is niet afhankelijk van de uitgevers. Wat mijn plan met het beginnen van deze discussie is, heb ik al geschreven. Mijn ideeen daarover sluiten niet uit, dat er een discussie op gang komt over de gemonopoliseerde data en de structuren die achter slot en grendel zitten. Daarvoor moeten zich dan wel meer geinteresseerden melden, want met mij ben je daarover snel uit gepraat.

Rechtenforum.nl -> Informatie en technologie

Tijden zijn in GMT + 2 uur

Pagina 1 van 1