Une exploration juridique du datamining

A paraître sur les pages « Droit de l’information » de l’ADBS

Après avoir abordé la donnée publique, la donnée libre et le Cloud computing, pourquoi ne pas se pencher sur les aspects juridiques du datamining, procédé qui intéressera tous les gestionnaires de l’information et qui, comme nous l’avions noté en 2009, fait l’objet d’une clause expresse du projet de Règlement Google Livres ?

Le datamining présente toutefois de multiples facettes, que l’on n’aura pas épuisées, et  Google, dans cet exposé, ne sert qu’à illustrer certains aspects de la question.

Le datamining pour faire parler les données

Le datamining, technique qui va au-delà de la simple interrogation de données et même d’une analyse des données classique [11], consiste à extraire des informations pertinentes, non décelables immédiatement, par des techniques automatiques ou semi-automatiques, à partir d’une base constituée d’un très grand volume de données internes et/ou de données rapatriées.

En combinant le datamining et la linguistique, on peut traiter de grandes masses de données textuelles, et découvrir rapidement les thèmes abordés et les structurer sans les connaître a priori.

 

Le datamining a des nombreuses applications commerciales ou scientifiques. Dans le monde de l’entreprise, par exemple, il permet de générer automatiquement des baromètres de satisfaction, des rapports sur l’image de l’entreprise ou l’état de la concurrence. Il sert aussi à découvrir des informations cachées (par exemple, les nouveaux domaines de recherche dans les brevets déposés), à communiquer en utilisant le même vocabulaire que ses clients et en adaptant son discours à chaque segment de clientèle [12] [13].

Les droits concernés

 

Regrouper des corpus, en extraire des parties pour diffuser les résultats d’une analyse fait intervenir des questions liées au droit d’auteur, au  respect de la vie privée, au droit de la concurrence et au droit des contrats.

  • Pour accéder au corpus

 

Le droit des contrats

 

L’accès aux données est libre, mais les conditions d’utilisation (note 1) seront définies sur le site qui les héberge.  Si l’on prend pour exemple Google livres, selon le projet de Règlement, seuls des chercheurs « qualifiés », accrédités par Google, seraient autorisés à explorer le corpus par des techniques de datamining pour des recherches qui, entreprises à des fins non commerciales, ne doivent pas concurrencer l’un des services de Google.

Dans certains cas, l’accès au corpus lui-même sera réservé à des utilisateurs dûment autorisés. Il convient alors de négocier avec les ayants droit pour définir les modalités de cet accès et de son usage, définir les responsabilités de chacune des parties, ce qui devrait donner des garanties supplémentaires.

 

  • Pour numériser des textes

 

Le droit d’auteur

Reproduire un texte protégé par le droit d’auteur sur un nouveau support nécessite l’autorisation des titulaires de droits.

Mais pour réaliser les différentes copies de corpus, simples instruments d’une analyse (la seule appelée à être diffusée), ne bénéficierait-on pas de l’exception au droit d’auteur qui permet d’effectuer, sans autorisation expresse, des copies techniques, transitoires et accessoires n’ayant aucune signification économique indépendante ? (note 2)

Pour la Cour de justice de l’Union européenne (CJUE), qui  s’est penchée sur cette question en juillet 2009, dans le cadre d’un procès qui opposait un journal danois à un prestataire de veille du même pays, seules les  copies dont le procédé est automatisé et  dont la durée de vie est limitée à ce qui est techniquement nécessaire relèvent de cette exception [4]. Dès lors que leur suppression est manuelle (note 3), une autorisation du titulaire des droits est requise.

Le droit des contrats

Il intervient  notamment lorsqu’on recourt à un prestataire pour héberger les corpus sélectionnés. On peut se référer alors aux réponses contractuelles listées dans le dossier sur le Cloud Computing.

 

  • Pour extraire des données

Le droit d’auteur

L’indexation, qui consiste à caractériser les idées contenues dans un texte ou un ensemble de données  par plusieurs mots-clés, devrait être libre, le droit d’auteur ne protégeant pas les idées mais uniquement leur mise en forme.

Or, non seulement le datamining n’implique pas une indexation humaine, pré requis exigé (note 4) [3], mais dans le procès danois [4], objet de l’examen de la CJUE, les mots-clés sélectionnés dans les articles de presse étaient accompagnés des cinq mots qui les encadraient.  Comme chaque article était susceptible de contenir plusieurs mots-clés, la reproduction de tous les ensembles de mots-clés constituait une reproduction partielle, soit un extrait d’une œuvre, excédant ce qui est autorisé par le droit de citation, impliquant de ce fait aussi une autorisation expresse des ayants droit (note 5).

Le droit des bases de données (note 6)

Le producteur d’une base de données qui a investi de manière importante pour la construire et la mettre à jour peut s’opposer à toute extraction quantitativement ou qualitativement substantielle de sa base, même si celles-ci est constituée  d’éléments non protégés par le droit d’auteur, ce qui s’applique aux faits, aux œuvres dénuées d’originalité (note 7), mais aussi aux œuvres appartenant au domaine public du fait de l’expiration des droits patrimoniaux. Ce droit du producteur s’applique à tout corpus de données, un ensemble de métadonnées  par exemple.

La loi « Informatique et libertés », la loi pour la confiance dans le commerce électronique (LCEN) et la loi sur les archives

Des règles doivent être observées lorsque l’on collecte et utilise des données personnelles figurant dans  les corpus.

La loi « Informatique et libertés » exige une collecte loyale,  une information des personnes concernées, des formalités auprès de la CNIL (différentes selon la nature des données et des traitements envisagés), et  interdit d’utiliser les fichiers à d’autres fins que celles qui sont initialement prévues. La LCEN encadre les utilisations à des fins publicitaires [9].

Les archives publiques, pour prendre un autre exemple, sont librement communicables, immédiatement comme l’indique la loi de 1978. Les exceptions à la communicabilité ont été redéfinies par la loi sur les archives en 2008 [7]. Selon le cas, les documents dont la communication est différé, seront disponibles 50 ans, 75 ou 100 après leur date de création, et certains ne seraient jamais communicables. Mais des dérogations permettent aussi de consulter des documents avant l’expiration des délais fixés. Ces règles, en revanche, ne s’appliquent pas aux archives privées. Mais toutes ces règles ne préjugent pas de la réutilisation  des documents en question (note 8).

 

Quelques  remarques

 

  • De l’œuvre à la donnée

Le titulaire des droits  d’auteur ne peut s’opposer qu’à la reproduction et à la représentation de la mise en forme originale des idées, et non à la reprise des idées elles-mêmes.

Or, la valeur d’usage se trouve de plus en plus souvent aujourd’hui dans les données et les métadonnées utilisées et élaborées pour détecter un sens, et les techniques employées se passent de plus en plus souvent de toute reproduction du corpus initial.

  • Du droit d’auteur au droit de la concurrence

 

Dans le débat autour du règlement Google [5], les textes littéraires ne sont plus qu’un ensemble de données qui, liées les unes aux autres, permettent de voir « au-delà du livre ».  Et dans ce cadre, le droit d’auteur n’a plus vraiment de place  (note 6).

Indexer un site qui n’est pas verrouillé, pour  créer une nouvelle activité commerciale, sera apprécié au regard du droit du producteur de base de données ou du droit de la concurrence, et l’extraction, même temporaire, sera jugée parasitaire si celui qui a extrait les données n’a pas effectué d’investissement substantiel pour créer le nouveau service.

Le  datamining, et toutes les techniques de veille exploitant les données figurant dans des corpus, représentent un service que pourraient développer les éditeurs eux-mêmes, et qu’ils entendent monnayer pour obtenir un retour sur investissement, le besoin de reproduire et de représenter une œuvre allant décroissant. Ne vient-on pas d’apprendre que le Centre français d’exploitation du droit de copie (CFC) proposerait prochainement des contrats aux webcrawlers [1] ?

  • Du droit de la concurrence au droit des usagers

L’IABD avait signalé dans sa déclaration du 7 septembre 2010 [6] que «  la disposition la plus grave du Règlement Google Livres est peut-être celle qui prévoit que seul le gestionnaire de la base de données contenant les copies numériques des livres (soit Google et lui seul) est habilité à autoriser les analyses et les recherches sur son corpus : l’on voit sans peine tous les problèmes d’impartialité posés par cette clause, notamment dans le domaine toujours sensible de la recherche scientifique. »  L’on a retrouvé ces inquiétudes dans un débat organisé aux États-Unis [5].

Que faire, en effet,  sachant que Google peut retirer des informations, et qu’aucune garantie n’est donnée sur l’exhaustivité et la fiabilité du corpus ? Quelle parade utiliser pour garantir un accès dans de bonnes conditions à une base de données jugée essentielle ? La licence obligatoire est une voie qui a été envisagée [1]. La théorie des facilités essentielles, qui rééquilibre les « droits du titulaire des droits intellectuels et l’intérêt collectif du marché », sans répondre à toutes les questions, donne des ouvertures [8].


Notes

[1] Le droit d’accès libre ne se traduisant pas automatiquement par une liberté d’utilisation, les modalités de la réutilisation seront  définies par un contrat.

[2] Une exception insérée dans le droit français par la loi sur le droit d’auteur et les droits voisins dans la société de l’information (Dadvsi) qui transposait une directive européenne.

[3] Ceci même si  les actes ont pour but ultime une utilisation licite de l’œuvre, soit ici  la consultation d’une synthèse de plusieurs articles réalisée par des tiers.

[4] Comme l’a indiqué le juge français,  dans sa décision de décembre 2009, dans le procès qui oppose Google à l’éditeur La Martinière où il contestait la licéïté du caractère aléatoire et automatique de l’extraction de brefs extraits des ouvrages pour s’opposer à l’argument de l’exception de citation.

[5] Mais il n’incombait à la CJUE que d’examiner si les actes techniques préalables répondaient aux exigences de la directive européenne,  laissant aux États membres le soin de déterminer la signification et la portée des exceptions proposées par la directive à titre optionnel, ce qui était le cas de la citation. Il appartient maintenant aux juges danois d’évaluer s’il est possible d’autoriser, au titre de la citation à des fins de revue, la pratique de l’entreprise de veille danoise, ce qui semble à ce jour n’avoir pas été examiné à ce jour.

[6] On signalera aussi que, même s’il s’agit de données non protégées par le droit d’auteur (des œuvres entrées dans le domaine public, par exemple), extraire des données fait aussi intervenir le droit d’auteur, lorsque le choix des données et/ou sa structure sont originaux. Ces dispositions, mises en œuvre en Europe depuis l’adoption d’une directive européenne, n’existent pas aux États-Unis

[7] Quoique le droit d’auteur tend à s’étendre à des catégories de plus en plus étrangères aux créations intellectuelle et artistiques stricto sensu.

[8]  La réutilisation des documents d’archives donne lieu en ce moment à d’intéressants débats. Voir, par exemple : Privatisation des archives : l’inquiétude perdure, Guillaume, FranceGenWeblog, 10 juillet 2010

Références

 

 

 

  1. Veille et intelligence économique face au droit. Compte rendu de l’atelier  « Évolution de la propriété intellectuelle dans le cadre des nouvelles pratiques de l’information numérique. I-Expo : 10 juin 2010, Michèle Battisti, Paralipomènes, 14 juin 2010
  2. Google, le droit d’auteur et nous. Compte rendu de la conférence sur le livre à l’ère numérique. AFPIDA : le 17 mai 2010, M.B., Paralipomènes, 31 mai 2010
  3. Pas d’exception de courte citation pour Google Livres ?, ADI, M.B. , 11 février 2010
  4. Autour de l’indexation, M.B.,  ADI, octobre 2009
  5. The Google Book Settlement: Data Mining and Non-Consumptive Use. UCBerkeley Events 24 Sep 2009. Sur YouTube
  6. Non au Règlement Google Livres en France. Oui à une solution publique alternative grâce à l’emprunt national, Interassociation Archives-Bibliothèques-Documentation, 7 septembre 2009. Sur le site de l’IABD
  7. Une nouvelle loi pour les archives, M.B., ADI n° 93, juillet-août 2008
  8. Le droit de la concurrence et la propriété intellectuelle sont-ils incompatibles ? Etienne Wery, Droit & Technologies, 10 juin 2008
  9. Quel droit pour le data mining ?,  Brigitte Misse, Marketing Direct N°119, 1er avril 2008
  10. Data mining et droit : La propriété intellectuelle à l’épreuve des technique de l’information et de la communication, Mémoire DEA Informatique et droit de l’université de Montpellier, Raphaël Rivière, 14 novembre 2006

Savoir plus sur le data mining

11. Cartographie de l’information. Cours et TD de l’URFIST  de Paris. 2 février 2009. Présentation succincte
12. Datamining,
M.B., L’œil de l’ADBS, n° 8, mai 2006 (accès réservé aux adhérents de l’ADBS)
13. Textmining,
M.B., L’œil de l’ADBS, n° 9, mai 2006 (accès réservé aux adhérents de l’ADBS)
14.Data mining définition
, Master professionnel. Droit de l’internet public

One comment

  1. […] This post was mentioned on Twitter by Les archiveilleurs, Lygoma (Lydie. F). Lygoma (Lydie. F) said: http://tinyurl.com/2uvlo9d Une exploration juridique du Datamining (Paralipomènes) […]

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *