Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Gestion des identifiants des datasets issus d'un CKAN et d'un catalogue #780

Open
bchartier opened this issue Oct 17, 2018 · 6 comments
Open

Comments

@bchartier
Copy link

Je me pose la question de ce qu'il se passe si un même jeu de données est moissonné par udata à la fois via le moissonneur CKAN et geo.data.gouv.fr. J'imagine qu'il y a un risque de doublon. Peut-on éviter cela (via l'identificateur de ressource unique des métadonnées ISO 19139 qui devrait correspondre à l'id du dataset dans CKAN par exemple) ?

@jdesboeufs
Copy link
Member

En effet. Nous avons réglé ce problème avec le moissonneur ODS en ignorant les métadonnées issues d'ISO 19139. Celles-ci transitent donc exclusivement via geo.data.gouv.fr

@bchartier
Copy link
Author

Je ne suis pas sûr de bien interpréter ta réponse.

Je précise donc notre situation : nous aurions un même dataset référencé dans CKAN (selon un modèle de métadonnées CKAN / non ISO 19139) et dans un catalogue GeoNetwork (ISO 19139). Les 2 seraient moissonnés respectivement par udata et par geo.data.gouv.fr.

En l'état actuel les deux pourraient se retrouver dans data.gouv.fr alors qu'il s'agirait d'un même dataset même si les 2 portaient le même identifiant ?

La solution que tu évoques pour le moissonneur ODS c'est ça :
https://github.com/opendatateam/udata-ods/blob/master/udata_ods/harvesters.py#L143-L145
?
On ne fait pas attention aux datasets pour lesquels on détecte un truc "inspire" (désolé pour l'utilisation du terme "truc" ; ne connaissant pas l'API d'Open Data Soft je ne sais pas s'il s'agit d'un mot clef, d'un type de ressource ou d'un autre genre de catégorie).

@jdesboeufs
Copy link
Member

C'est un champ chez eux qui indique si le jeux de données provient de métadonnées ISO 19139.

@bchartier
Copy link
Author

Du coup, si on a un double moissonnage via CKAN et GeoNetwork, on aura des doublons des data.gouv.fr ou est-ce qu'il y a un contrôle d'unicité dans data.gouv.fr ?

@jdesboeufs
Copy link
Member

jdesboeufs commented Oct 17, 2018 via email

@bchartier
Copy link
Author

Merci, bien compris.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants