WO2016079402A1 - Data logging system and method - Google Patents

Data logging system and method Download PDF

Info

Publication number
WO2016079402A1
WO2016079402A1 PCT/FR2015/053078 FR2015053078W WO2016079402A1 WO 2016079402 A1 WO2016079402 A1 WO 2016079402A1 FR 2015053078 W FR2015053078 W FR 2015053078W WO 2016079402 A1 WO2016079402 A1 WO 2016079402A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
article
module
journalism
structured
Prior art date
Application number
PCT/FR2015/053078
Other languages
French (fr)
Inventor
Samia BENRACHI
Jean-Charles Masse
Pascal CONRATH
Original Assignee
Bull Sas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bull Sas filed Critical Bull Sas
Publication of WO2016079402A1 publication Critical patent/WO2016079402A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Data logging system (100) for structuring unstructured data and publication of at least one data structure associated with an article, said system comprising - a data acquisition module (10) configured to o receive unstructured data from a plurality of sources (1, 2, 3, 4, 5, 6) of heterogeneous data; o structure the set of said data into a pivot format; - a data processing module (20) configured to o record the structured data in a database; o index the recorded data; o generate at least one data structure from a plurality of recorded data in response to a request from a data management module (30), said data management module (30) being configured to publish at least said data structure.

Description

SYSTEME ET METHODE DE JOURNALISME DE DONNEES  SYSTEM AND METHOD OF DATA JOURNALISM
L'invention a trait à un système de journalisme de données, permettant la gestion de données, et la publication de structures de données relatives à ces données. The invention relates to a data journalism system for data management and the publication of data structures relating to such data.
En vue de produire des articles, les journalistes sont tout d'abord amenés à choisir un sujet d'information. Puis, afin de construire une narration autour de ce sujet, ils recherchent, à partir de sources de données primaires ou secondaires, des informations s'y rapportant. Internet est devenu au fil du temps un outil incontournable pour le journaliste, grâce à la profusion des sources de données disponibles, telles les articles, les blogs, les sources officielles de données (ex : gouvernements, collectivités, entreprises), les réseaux sociaux, ou encore plus généralement les données ouvertes. Par ailleurs, les journalistes font fréquemment le choix d'accompagner leurs articles de supports visuels, par exemples d'images, de graphiques ou d'infographies.  In order to produce articles, journalists are first required to choose an information subject. Then, in order to build a narrative around this topic, they look for information from primary or secondary data sources. Over time, the Internet has become an essential tool for the journalist, thanks to the wealth of available data sources, such as articles, blogs, official sources of data (eg governments, communities, businesses), social networks, or even more generally open data. In addition, journalists frequently choose to accompany their articles with visual aids, for example images, graphics or computer graphics.
Parmi les différentes catégories de journalisme, le journalisme de données, couramment désigné sous l'anglicisme « data journalism », est une forme de journalisme en pleine expansion. Le journalisme de données vise à exploiter un ensemble de données chiffrées et/ou statistiques, pour générer des représentations visuelles à l'aide de graphiques et/ou d'infographie, souvent interactifs. Dans ce contexte, à titre d'exemple, un article publié sur un support numérique propose à ses lecteurs la possibilité de sélectionner des données associées à une structure de données (ex : graphique, tableaux, arbre) accompagnant cet article, et de manipuler cette représentation, leur permettant ainsi d'appréhender et de mémoriser plus aisément l'information. Le journalisme de données permet donc de faire parler des données chiffrées en générant une ou plusieurs structures de données, et ainsi de transmettre un contenu informatif au lecteur d'un article, de manière bien plus efficace que ne le feraient les seuls mots de cet article.  Among the different categories of journalism, data journalism, commonly referred to as data journalism, is a fast-growing form of journalism. Data journalism aims to exploit a set of encrypted and / or statistical data, to generate visual representations using graphics and / or computer graphics, often interactive. In this context, for example, an article published on a digital medium offers its readers the possibility to select data associated with a data structure (eg: graph, tables, tree) accompanying this article, and to manipulate this data. representation, allowing them to understand and memorize information more easily. Data journalism thus makes it possible to make the encrypted data talk by generating one or more data structures, and thus to transmit an informative content to the reader of an article, in a much more efficient manner than would the words of this article .
Dans un contexte de journalisme de données, les journalistes collectent des informations à partir de sources de données très variées (ex : sources Internet), conduisant à l'obtention de données qui ne sont couramment pas structurées, ou sinon structurées de manière très hétérogène. De telles données, à titre d'exemple, peuvent se présenter sous différents formats électroniques (texte, tableaux, structures de données spécifiques). En vue de générer une représentation visuelle accompagnant un article, il est donc nécessaire dans un premier temps de structurer ces données une à une. Un tel travail de structuration s'avère fastidieux pour le journaliste et rallonge considérablement la durée de production d'un article. La réalisation d'une représentation visuelle, et plus généralement d'une structure de données, nécessite par ailleurs diverses compétences métiers que ne possède pas nécessairement le journaliste. A titre d'exemple : In a context of data journalism, journalists collect information from a wide variety of data sources (eg Internet sources), leading to the obtaining of data that is not usually structured, or otherwise structured in a very heterogeneous way. Such data, for example, may be presented in different electronic formats (text, tables, specific data structures). In order to generate a visual representation accompanying an article, it is therefore necessary initially to structure these data one by one. Such structuring work is tedious for the journalist and considerably lengthens the production time of an article. The realization of a visual representation, and more generally of a data structure, also requires various business skills that the journalist does not necessarily possess. For exemple :
- le choix de formes et de couleurs pour la construction d'une représentation visuelle nécessite des connaissances en sémiotique visuelle ou en sémiologie graphique. Il peut donc être nécessaire de faire appel à un graphiste ; - the choice of shapes and colors for the construction of a visual representation requires knowledge in visual semiotics or graphic semiology. It may therefore be necessary to call on a graphic designer;
la réalisation d'une représentation visuelle interactive peut nécessiter les compétences d'un designer d'interaction.  performing an interactive visual representation may require the skills of an interaction designer.
Il est donc fréquent, pour une société de média, de faire appel à des compétences extérieures, ce qui induit des coûts temporels et économiques non-négligeables pour la production d'articles.  It is therefore common, for a media company, to call on outside expertise, which incurs significant time and economic costs for the production of articles.
L'invention a pour but de répondre à l'ensemble des inconvénients précités.  The invention aims to meet all the aforementioned drawbacks.
Un premier objectif est de proposer aux journalistes, dans le contexte du journalisme de données, un outil permettant la réduction des coûts temporels ou économiques lors de la production d'un article.  A first objective is to offer journalists, in the context of data journalism, a tool to reduce time or economic costs when producing an article.
Un deuxième objectif est de proposer un outil répondant aux attentes des journalistes, dans le contexte du journalisme de données.  A second objective is to propose a tool that meets the expectations of journalists, in the context of data journalism.
Un troisième objectif est de proposer un outil facilitant la collecte, la structuration et l'utilisation de données par les journalistes, dans le contexte de journalisme de données.  A third objective is to propose a tool facilitating the collection, structuring and use of data by journalists, in the context of data journalism.
Un quatrième objectif est de proposer un outil permettant à partir d'un ensemble de données hétérogènes et non-structurées, de générer au moins une structure de données.  A fourth objective is to propose a tool making it possible, from a heterogeneous and unstructured data set, to generate at least one data structure.
A cet effet, il est proposé, selon un premier aspect, un système de journalisme de données pour la structuration de données non- structurées et la publication d'au moins une structure de données associée à un article, ce système comprenant  For this purpose, it is proposed, according to a first aspect, a data journalism system for structuring unstructured data and publishing at least one data structure associated with an article, this system comprising
un module d'acquisition de données configuré pour : o réceptionner des données non-structurées à partir d'une pluralité de sources de données hétérogènes ; a data acquisition module configured for: receiving unstructured data from a plurality of heterogeneous data sources;
o structurer l'ensemble de ces données selon un format pivot ;  o structure all of these data in a pivotal format;
un module de traitement de données configuré pour :  a data processing module configured for:
o enregistrer les données structurées dans une base de données ; o indexer les données enregistrées ;  o save the structured data in a database; o index the recorded data;
o générer à partir d'une pluralité de données enregistrées au moins une structure de données en réponse à une requête depuis un module de gestion de données, ce module de gestion de données étant configuré pour publier au moins cette structure de données. generating, from a plurality of stored data, at least one data structure in response to a request from a data management module, this data management module being configured to publish at least this data structure.
Avantageusement, dans ce système, le module de gestion de données est configuré pour proposer, via une interface graphique : Advantageously, in this system, the data management module is configured to propose, via a graphical interface:
o des outils permettant la rédaction d'un article ;  o tools for writing an article;
o la sélection d'une ou plusieurs données indexées par le module de traitement de données ;  o the selection of one or more data indexed by the data processing module;
o une requête auprès du module de gestion de donnée pour la génération d'une structure de données à partir des données indexées sélectionnées ;  o a request to the data management module for the generation of a data structure from the selected indexed data;
o la publication d'un article rédigé avec la structure de données requêtée.  o the publication of an article written with the requested data structure.
Avantageusement, dans ce système :  Advantageously, in this system:
chaque donnée structurée est associée à au moins un mot-clé apte à identifier cette donnée ;  each structured data item is associated with at least one keyword able to identify this datum;
le module de traitement de données configuré pour :  the data processing module configured for:
o évaluer la pertinence de chaque donnée structurée et indexée à partir d'au moins une métrique prédéterminée ;  o evaluate the relevance of each structured and indexed data from at least one predetermined metric;
o communiquer au module de gestion de données un ensemble de mots-clés associés aux données jugées comme pertinentes ;  o provide the data management module with a set of keywords associated with the data deemed relevant;
le module de gestion de données est configuré pour proposer via une interface graphique la sélection d'une ou plusieurs données indexées par le module de traitement de données à partir des mots-clés communiqués par le module de traitement de données. Avantageusement, dans ce système, une métrique prédéterminée est choisie parmi une liste de métrique comprenant : le nombre d'occurrences d'un mot clé commun à différentes données, la popularité ou la visibilité d'un sujet ou ensemble de mots clés sur Internet, la fréquence d'utilisation au cours du temps d'un mot clé par différents utilisateurs du système de journalisme de données. the data management module is configured to propose via a graphical interface the selection of one or more data indexed by the data processing module from the keywords communicated by the data processing module. Advantageously, in this system, a predetermined metric is selected from a list of metrics including: the number of occurrences of a keyword common to different data, the popularity or visibility of a subject or set of keywords on the Internet, the frequency of use over time of a keyword by different users of the data journalism system.
Avantageusement, dans ce système, les données sont formatées selon un format pivot en accord avec le standard IPTC.  Advantageously, in this system, the data is formatted according to a pivot format in accordance with the IPTC standard.
Avantageusement, dans ce système, le module de traitement de données est configuré pour enregistrer les données structurées dans une base de données NoSQL.  Advantageously, in this system, the data processing module is configured to record the structured data in a NoSQL database.
Avantageusement, dans ce système, le module de gestion de données est configuré pour proposer lors de la réalisation d'un article, la sélection d'un ou plusieurs modèles de mise en page de données, permettant de structurer l'article en fonction de son support de publication.  Advantageously, in this system, the data management module is configured to propose when producing an article, the selection of one or more models of data layout, for structuring the article according to its publication support.
Il est proposé, selon un deuxième aspect, une méthode pour la structuration de données non-structurées et la publication d'au moins une structure de données associée à un article de journalisme de données, cette méthode comprenant :  It is proposed, in a second aspect, a method for structuring unstructured data and publishing at least one data structure associated with a data journalism article, which method comprises:
une étape de réception de données non-structurées à partir d'une pluralité de sources de données hétérogènes ;  a step of receiving unstructured data from a plurality of heterogeneous data sources;
une étape de structuration de l'ensemble de ces données selon un format pivot ;  a step of structuring all of these data in a pivot format;
une étape d'enregistrement des données structurées dans une base de données ;  a step of saving the structured data in a database;
une étape d'indexation des données enregistrées ;  a step of indexing the recorded data;
une étape de génération à partir d'une pluralité de données enregistrées d'au moins une structure de données en réponse à une requête ;  a generation step from a plurality of stored data of at least one data structure in response to a request;
une étape de publication de la structure de données avec un article de journalisme de données.  a step of publishing the data structure with a data journalism article.
Avantageusement, dans cette méthode :  Advantageously, in this method:
- chaque donnée structurée est associée à au moins un mot-clé apte à identifier cette donnée ; each structured data item is associated with at least one keyword capable of identifying this datum;
l'étape de structuration des données est réalisée selon un format pivot en accord avec le standard IPTC ;  the data structuring step is performed according to a pivot format in accordance with the IPTC standard;
cette méthode comprenant en outre les étapes suivantes : this method further comprising the following steps:
- une étape d'évaluation de la pertinence de chaque donnée structurée et indexée à partir d'au moins une métrique prédéterminée, cette métrique étant choisie parmi un liste de métriques comprenant le nombre d'occurrences d'un mot clé commun à différentes données, la popularité ou la visibilité d'un sujet ou ensemble de mots clés sur Internet, la fréquence d'utilisation au cours du temps d'un mot clé ; a step of evaluating the relevance of each structured and indexed data item from at least one metric predetermined, this metric being selected from a list of metrics including the number of occurrences of a keyword common to different data, the popularity or visibility of a subject or set of keywords on the Internet, the frequency of use at the course of time of a keyword;
une étape de communication d'un ensemble de mots-clés associés aux données jugées comme pertinentes ;  a step of communicating a set of keywords associated with the data deemed relevant;
une étape de proposition de sélection d'une ou plusieurs données indexées à partir des mots-clés communiqués.  a step of proposing the selection of one or more data indexed from the communicated keywords.
II est proposé, selon un troisième aspect, un produit programme d'ordinateur implémenté sur un support mémoire, susceptible d'être mis en œuvre au sein d'une unité de traitement informatique et comprenant des instructions pour la mise en œuvre de la méthode résumée ci- dessus.  It is proposed, in a third aspect, a computer program product implemented on a memory medium, capable of being implemented within a computer processing unit and including instructions for the implementation of the summary method. above.
D'autres objets et avantages de l'invention apparaîtront à la lumière de la description des modes de réalisation, faite ci-après en référence au dessin annexé, dans lequel la figure 1 illustre un système de journalisme de données selon un mode de réalisation.  Other objects and advantages of the invention will become apparent from the description of the embodiments, given below with reference to the accompanying drawing, in which Fig. 1 illustrates a data journalism system according to one embodiment.
Sur la figure 1 est représenté un système 100de journalisme de données, configuré pour gérer un ensemble de données depuis leur récupération selon un ou plusieurs formats jusqu'à leur publication selon ou un plusieurs format(s) sélectionnable(s).  FIG. 1 shows a data journalism system 100 configured to manage a set of data from their retrieval in one or more formats until their publication according to one or more selectable format (s).
Selon divers modes de réalisations, le système 100 de journalisme de données comprend les modules suivants :  According to various embodiments, the data journalism system 100 comprises the following modules:
- un module 10d'acquisition de données ; a module 10 for acquiring data;
un module 20 de traitement de données ;  a data processing module 20;
un module 30de gestion de données.  a data management module 30.
Le module 10 d'acquisition de données est configuré pour réceptionner (flèches unidirectionnelles 101, 102, 103, 104, 105, 106) un ensemble de données non-structurées depuis une ou plusieurs sources 1, 2, 3, 4, 5, 6 de données. Avantageusement, les données issues des sources 1, 2, 3, 4, 5, 6 de données sont de natures et de provenances très hétérogènes. A titre d'exemple :  The data acquisition module 10 is configured to receive (unidirectional arrows 101, 102, 103, 104, 105, 106) a set of unstructured data from one or more sources 1, 2, 3, 4, 5, 6 of data. Advantageously, the data from sources 1, 2, 3, 4, 5, 6 of data are very heterogeneous natures and provenances. For exemple :
les sources 1, 2, 3 de données sont des sources de données disponibles sur Internet, proposant respectivement des données enregistrées aux formats XML, PDF, CSV. Ces données, sont à titre d'exemples, extraites depuis leur emplacement de stockage via le module d'acquisition de données 10, qui est configuré pour effectuer cette opérations de manière périodique ou encore à des instants spécifiés ; data sources 1, 2, 3 are data sources available on the Internet, respectively offering data recorded in XML, PDF, CSV formats. These data are at as examples, retrieved from their storage location via the data acquisition module 10, which is configured to perform this operation periodically or at specified times;
- la source 4 de données est une base de données relationnelle, accessible par le module 10 d'acquisition de données depuis un réseau de communication public ou privé, et proposant un ensemble de données hétérogènes tels des fichiers textes et multimédia. Une telle base de données est, à titre d'exemple, accédée de manière périodique par le module 10 d'acquisition de données afin de mettre à jour les contenus proposés par le système 100 de journalisme de données ; the source 4 of data is a relational database, accessible by the data acquisition module 10 from a public or private communication network, and proposing a set of heterogeneous data such as text and multimedia files. Such a database is, by way of example, accessed periodically by the data acquisition module 10 in order to update the contents proposed by the data journalism system 100;
la source 5 de données, correspond à un ou plusieurs fichiers aux formats Excel ou texte, fournis directement par un utilisateur au système 100 de journalisme de données, via une interface graphique appropriée ;  the data source 5 corresponds to one or more files in Excel or text formats provided directly by a user to the data journalism system 100 via an appropriate graphical interface;
la source 6 de données propose un ensemble de flux de données au format RSS téléchargés, à titre d'exemple, de manière périodique par le module 10 d'acquisition de données.  the data source 6 proposes a set of RSS data streams downloaded, for example, periodically by the data acquisition module 10.
Selon divers modes de réalisations, les données associées aux sources 1, 2, 3, 4, 5, 6 de données (hétérogènes) sont extraites de manière périodique par le module 10 d'acquisition de données. Pour ce faire, un outil de planification ou d'ordonnancement tâches peut être associé au module d'acquisition 10 de données.  According to various embodiments, the data associated with sources 1, 2, 3, 4, 5, 6 of data (heterogeneous) are extracted periodically by the data acquisition module 10. To do this, a task planning or scheduling tool can be associated with the data acquisition module 10.
Le module 10 d'acquisition de données est, par ailleurs configuré pour structurer l'ensemble des données réceptionnées, selon un format pivot prédéterminé, c'est-à-dire un format permettant de structurer de manière commune l'ensemble des données réceptionnées. Avantageusement, une telle structuration est réalisée de manière automatique par le module 10 d'acquisition de données. Ainsi, depuis un ensemble de données non-structurées réceptionnées et de formats hétérogènes, le module 10 d'acquisition de données fournit en sortie (flèche 107) un ensemble de données formatées selon une structure similaire, aptes à être directement utilisée en lecture/écriture lors de la réalisation ultérieure de tout article et/ou infographie par un journaliste. Avantageusement, le module 10 d'acquisition de données est configuré pour structurer les données (non-structurées/hétérogènes) qu'il réceptionne en entrée vers un format pivot en accord avec le standard IPTC, acronyme anglais de « International Press Télécommunications Council ». A titres d'exemples, le module 10 d'acquisition de données formate les données qu'il réceptionne en entrée selon le format d'échange d'informations NewsML, acronyme anglais de « News Markup Language », selon le format NewsML-G2, ou encore selon le format NITF , acronyme anglais de « News Industry Text Format », puis fournit les données formatées en sortie. Avantageusement, le formatage des données réceptionnées selon le standard IPTC, permet d'obtenir pour chaque donnée une structure comprenant un ensemble de métadonnées, ces dernières décrivant, à titre d'exemples, des données numériques et/ou mots clés associées à la donnée. Dans un autre exemple, les données sont formatées par le module 10 d'acquisition de données de manière à être compatible avec tout système informatique de salle de rédaction NRCS, acronyme anglais de « Newsroom Computer System ». Plus généralement, le module 10 d'acquisition de données est configuré pour formater les données réceptionnées selon un format pivot prédéterminé, ce format étant choisi de manière à permettre la structuration de ces données et de leurs métadonnées respectives, et permettre leur utilisation pour la production d'articles journalistiques. Selon un mode de réalisation, le module 10 d'acquisition de données est réalisé selon le modèle d'un composant extracto-chargeur ETL, acronyme anglais de «. Extract Transform Load », configuré pour réaliser les opérations d'extraction et de formatage de données exposées ci-dessus. The data acquisition module 10 is, moreover, configured to structure the set of data received, according to a predetermined pivot format, that is to say a format for structuring in a common manner all the data received. Advantageously, such a structuring is performed automatically by the data acquisition module 10. Thus, since a set of unstructured data received and heterogeneous formats, the data acquisition module 10 outputs (arrow 107) a set of data formatted in a similar structure, able to be directly used in read / write during the subsequent realization of any article and / or computer graphics by a journalist. Advantageously, the data acquisition module 10 is configured to structure the data (unstructured / heterogeneous) that it receives as input to a pivot format in accordance with the IPTC standard, acronym for "International Press Telecommunications Council". By way of example, the data acquisition module 10 formats the data it receives as input according to the news exchange format NewsML, the acronym for "News Markup Language", according to the format NewsML-G2. or in NITF format, the acronym for "News Industry Text Format," and then provides formatted output data. Advantageously, the formatting of the data received according to the IPTC standard makes it possible to obtain for each datum a structure comprising a set of metadata, the latter describing, by way of examples, numerical data and / or keywords associated with the datum. In another example, the data is formatted by the data acquisition module 10 so as to be compatible with any NRCS newsroom computer system, the acronym for "Newsroom Computer System". More generally, the data acquisition module 10 is configured to format the received data according to a predetermined pivot format, this format being chosen so as to allow the structuring of these data and their respective metadata, and allow their use for production. journalistic articles. According to one embodiment, the data acquisition module 10 is made according to the model of an ETL extracto-charger component, acronym for ". Extract Transform Load ", configured to perform the extraction and data formatting operations outlined above.
Les données formatées selon un format pivot, et fournies en sortie du module 10 d'acquisition de données, sont ensuite communiquées en entrée du module 20 de traitement de données. Avantageusement, le module 20 de traitement de données enregistre alors l'ensemble des données formatées dans une base de données. Dans un mode de réalisation, la base de données utilisée est une base de données de type NoSQL, associée à un système de gestion de base de données SGBD tel Cassandra. Avantageusement, la base de données, est réalisée de manière à éviter toute redondance de données, tout en regroupant de manière centrale l'ensemble de ces données, qui sont structurées selon un même format pivot. Dans un mode de réalisation, la base de données est structurée en colonnes par le module 20 de traitement de données, en fonction de différents mots clés (tags), chaque donnée de la base de données étant associée à au moins un mot clé. Un mot clé peut à titre d'exemple, se rapporter à une description fournie par l'auteur de la donnée, ou à un élément caractérisant la donnée permettant son identification (ex : identification d'une unité de mesure). Un tel mot clé peut, à titre d'exemple, être extrait des métadonnées d'une donnée réceptionnée par le module 10 d'acquisition de données, lors de son formatage vers un format pivot et identifié par le module 20 de traitement de données comme un des champs caractéristiques de la donnée. The data formatted according to a pivot format, and provided at the output of the data acquisition module 10, are then communicated to the input of the data processing module 20. Advantageously, the data processing module 20 then stores all the formatted data in a database. In one embodiment, the database used is a NoSQL type database associated with a database management system DBMS such as Cassandra. Advantageously, the database is made in such a way as to avoid any redundancy of data, while at the same time centralizing all of these data, which are structured according to the same pivot format. In one embodiment, the database is structured in columns by the data processing module 20, according to different keywords (tags), each data item of the database being associated with at least one keyword. A key word can as an example, refer to a description provided by the author of the data, or to an element characterizing the data allowing its identification (eg identification of a unit of measure). Such a key word may, by way of example, be extracted from the metadata of a data item received by the data acquisition module 10, when formatting it to a pivot format and identified by the data processing module 20 as one of the characteristic fields of the data.
Les données présentes dans la base de données du module 20 de traitement de données, sont alors indexées en fonction de leurs mots clés respectifs et/ou de leur contenu, via une méthode d'indexation implémentée dans ce module ou un outil approprié intégré à ce module, par exemple via « ElasticSearch ». Plus précisément, le module 20 de traitement de données est configuré lors de l'indexation pour associer un ou plusieurs tags aux données enregistrées dans la base de données de ce module. Le module 20 de traitement de données est donc apte à établir une correspondance entre un mot clé et une ou plusieurs données enregistrées dans sa table de données.  The data present in the database of the data processing module 20 are then indexed according to their respective keywords and / or their content, via an indexing method implemented in this module or an appropriate tool integrated in this module. module, for example via "ElasticSearch". More specifically, the data processing module 20 is configured during indexing to associate one or more tags with the data stored in the database of this module. The data processing module 20 is therefore able to establish a correspondence between a keyword and one or more data stored in its data table.
Par ailleurs, afin de valoriser l'ensemble des données enregistrées dans sa base de données, le module 20 de traitement de données est configuré pour évaluer la pertinence de chaque donnée. Dans un mode de réalisation, l'évaluation de la pertinence d'une donnée, est à titre d'exemple, réalisée via l'attribution d'un score à cette donnée, en fonction d'une ou plusieurs métriques prédéfinies. Ces métriques sont, à titre d'exemples, choisies parmi une liste de métriques comprenant le nombre d'occurrences d'un même tag (mot clé) commun à différentes données, la popularité ou la visibilité d'un sujet ou ensemble de mots clés sur Internet, ou encore la fréquence d'utilisation au cours du temps d'un même mot clé par différents utilisateurs du système 100de journalisme de données. Si l'on souhaite implémenter cette dernière métrique, on veille alors à enregistrer dans le module 20 de traitement de données, un historique d'utilisation des tags pour un même utilisateur, ou pour un ensemble des utilisateurs du système 100 de journalisme de données. Avantageusement, l'ensemble des données enregistrées, indexées et évaluées dans la base de données du module de traitement 20 constitue donc une base de connaissance enrichie grâce à la diversité et l'hétérogénéité de ses sources, tout en proposant un ensemble de données structurées. Une telle base peut, par ailleurs, être directement enrichie par un journaliste, via l'injection de données primaires, telle une interview réalisée par le journaliste et fourni directement par celui-ci au système 100 de journalisme de données. Moreover, in order to value all the data recorded in its database, the data processing module 20 is configured to evaluate the relevance of each data item. In one embodiment, the evaluation of the relevance of a piece of data is, for example, carried out by assigning a score to this piece of data, as a function of one or more predefined metrics. These metrics are, as examples, chosen from a list of metrics including the number of occurrences of the same tag (keyword) common to different data, the popularity or visibility of a subject or set of keywords on the Internet, or the frequency of use over time of the same keyword by different users of the system 100de journalism data. If it is desired to implement this last metric, it then ensures to record in the data processing module 20, a history of use of the tags for the same user, or for a set of users of the system 100 of data journalism. Advantageously, all data recorded, indexed and evaluated in the database of the processing module 20 is therefore an enriched knowledge base thanks to the diversity and heterogeneity of its sources, while proposing a set of structured data. Such a base can, moreover, be directly enriched by a journalist, via the injection of primary data, such as an interview conducted by the journalist and directly provided by the latter to the system 100 of journalism data.
Le module 20 de traitement de données est par ailleurs configuré pour  The data processing module 20 is moreover configured for
réaliser une ou plusieurs structures de données, telles des représentations graphiques, à partir d'une pluralité de données enregistrées dans sa base de données. A titre d'exemples, le module 20 de traitement de données implémente une ou plusieurs méthodes aptes à réaliser des courbes de points, des tableaux, des histogrammes, des diagrammes circulaires, des cartographies pouvant être interactives, des bulles comparatives, des représentations temporelles interactives et/ou des graphes de relations. Notamment, le module 20 de traitement de données est configuré pour proposer et construire des représentations interactives, permettant à l'utilisateur la sélection, ou la désélection de données, de telles représentations permettant à l'utilisateur une profondeur de lecture dynamiquement ajustable ; établir une ou plusieurs corrélations entre des données enregistrées dans sa base de données, et établir des comparaisons entre des données de nature ou de sources différentes. Ces données peuvent, à titre d'exemple, être comparées directement lorsqu'elles présentent des unités de mesures similaires, ou dans le cas d'unités distinctes être corrélées via un moyen statistique, tel un calcul de régression linéaire.  performing one or more data structures, such as graphical representations, from a plurality of data stored in its database. As examples, the data processing module 20 implements one or more methods capable of producing point curves, tables, histograms, circular diagrams, maps that can be interactive, comparative bubbles, interactive temporal representations. and / or relationship graphs. In particular, the data processing module 20 is configured to propose and construct interactive representations, allowing the user to select or deselect data, such representations allowing the user a dynamically adjustable reading depth; establish one or more correlations between data recorded in its database, and make comparisons between data of different types or sources. These data can, for example, be compared directly when they have similar units of measurement, or in the case of separate units be correlated via a statistical means, such as a linear regression calculation.
Avantageusement, le module 20 de traitement de données est configuré pour transmettre (flèche 108) en entrée du module 30de gestion de données, un ensemble de données enregistrés, une ou plusieurs structures de données (ex : graphes), et/ou un ou plusieurs tags relatifs aux données enregistrées. Ces informations, peuvent transmises au module 30 de gestion de données. de manière poussée, par exemple via la suggestion d'un ou plusieurs tags associés à des données enregistrées, et jugés pertinents par le module 20 de traitement de données ; Advantageously, the data processing module 20 is configured to transmit (arrow 108) to the input of the data management module 30, a set of recorded data, one or more data structures (eg graphs), and / or one or more tags relating to the recorded data. This information can be transmitted to the data management module 30. in a thorough manner, for example via the suggestion of one or more tags associated with recorded data, and deemed relevant by the data processing module 20;
tirés en réponse à une plusieurs requêtes, par exemple de type NoSQL, envoyées par le module de gestion de données 30 vers le module 20 de traitement de données (flèche 109).  derived in response to a plurality of requests, for example NoSQL type, sent by the data management module 30 to the data processing module 20 (arrow 109).
Avantageusement, le module 30 de gestion de données implémente une interface graphique, accessible par exemple via un navigateur web, configurée pour:  Advantageously, the data management module 30 implements a graphical interface, accessible for example via a web browser, configured to:
- gérer les accès des utilisateurs au système 100 de journalisme de données, à titre d'exemples permettre à plusieurs journalistes de travailler sur un même article, hiérarchiser les utilisateurs), leur attribuer des rôles (ex : administrateur, utilisateur enregistré, invité, des permissions d'accès aux contenus (ex : lecture/écriture) et outils du système 100 de journalisme de données ; - manage users' access to the 100 system of data journalism, as examples to allow several journalists to work on the same article, prioritize users), assign roles to them (eg administrator, registered user, guest, content access permissions (eg read / write) and data journalism system 100 tools;
permettre à un utilisateur l'envoi de requêtes données (ex : de type NoSQL) et d'infographies associées à des mots clés (tags), vers le module 20 de traitement de données, par exemple via l'utilisation d'un moteur de recherche. Plus particulièrement, l'interface graphique est réalisée de manière à proposer à tout utilisateur, la sélection d'un ou plusieurs mots clés (tags) et d'une ou plusieurs représentations graphiques dans un catalogue, proposé par le module de traitement de données 20. A titres d'exemples, l'utilisateur peut envoyer une requête afin d'obtenir  allow a user to send data requests (eg of the NoSQL type) and infographics associated with keywords (tags), to the data processing module 20, for example via the use of a search engine. research. More particularly, the graphic interface is designed to offer to any user, the selection of one or more keywords (tags) and one or more graphic representations in a catalog, proposed by the data processing module 20 As examples, the user can send a request to obtain
o une représentation temporelle simple d'une donnée enregistrée par le module 20 de traitement de données, par exemple l'évolution temporelle du produit intérieur brut d'un pays spécifique ;  a simple temporal representation of a data item recorded by the data processing module 20, for example the temporal evolution of the gross domestic product of a specific country;
o une corrélation entre au moins deux données enregistrées par le module 20 de traitement de données, par exemple la comparaison de l'évolution du produit intérieur brut avec l'indice de développement humain d'un pays spécifique sur une période de temps sélectionnable via l'interface graphique ;  a correlation between at least two data recorded by the data processing module, for example the comparison of the evolution of the gross domestic product with the human development index of a specific country over a period of time that can be selected via the 'graphic interface ;
o une représentation graphique interactive générée par le module 20 de traitement de données, proposant un affichage dynamiquement configurable, via la possibilité de sélectionner ou la désélectionner graphiquement des données constitutives de cette représentation ; an interactive graphical representation generated by the data processing module, offering a dynamically configurable display, via the possibility of selecting or deselect graphically the constituent data of this representation;
communiquer à l'utilisateur un ensemble de mots clés (tags) jugés pertinents par le module 20 de traitement de données, à titre d'exemple un ensemble de mots clés se référant à un thème d'actualité en haute visibilité sur Internet. Comme exposé précédemment, la pertinence d'une donnée ou d'un tag est évaluée par le module 20 traitement de données en fonction de métriques prédéfinies. Ainsi, une liste de mots clés, peut à titre d'exemple être poussée par le module 20 de traitement de données, et suggérée via l'interface graphique du module 30 de gestion de données à l'utilisateur du système 100 de journalisme de données. Un liste de mot clé est, par exemple, communiquée en fonction de l'historique de recherche de mots clés qu'un journaliste a précédemment effectué, ou encore en fonction de la popularité de mots clés par un ensemble d'utilisateurs du système 100 de journalisme de données. Par ailleurs, afin d'affiner l'évaluation de pertinence des mots clés, l'interface graphique peut optionnellement proposer à l'utilisateur, d'attribuer un score de pertinence aux données retournées, ce score étant ensuite communiqué au module 20 de traitement de données. Le module 20 de traitement de données réévalue alors la pertinence de la donnée en fonction du score attribué par l'utilisateur et de ses propres métriques ;  communicate to the user a set of keywords (tags) deemed relevant by the data processing module 20, for example a set of keywords referring to a current topic in high visibility on the Internet. As explained above, the relevance of a data item or a tag is evaluated by the data processing module 20 according to predefined metrics. Thus, a list of keywords, may for example be pushed by the data processing module 20, and suggested via the graphical interface of the user data management module 30 of the data journalism system 100 . For example, a keyword list is provided based on the keyword search history that a journalist has previously made, or based on the popularity of keywords by a set of users of the system. data journalism. Moreover, in order to refine the evaluation of relevance of the keywords, the graphical interface may optionally propose to the user, to assign a score of relevance to the returned data, this score being then communicated to the processing module 20. data. The data processing module 20 then reevaluates the relevance of the data according to the score assigned by the user and his own metrics;
- proposer à l'utilisateur la sélection, le tri, le filtrage et/ou l'évaluation d'une ou plusieurs sources 1, 2, 3, 4, 5, 6 de données. Avantageusement, de telles possibilités facilitent la prise de décision par l'utilisateur du système 100 de journalisme de données, dans le choix des données à utiliser pour la production de son article, et permettent de fournir en permanence des sources fiables et mises à jours ; - offer the user the selection, sorting, filtering and / or evaluation of one or more sources 1, 2, 3, 4, 5, 6 of data. Advantageously, such possibilities facilitate the decision-making by the user of the data journalism system 100, in the choice of the data to be used for the production of his article, and make it possible to continuously provide reliable and up-to-date sources;
fournir des outils permettant la rédaction d'articles, et l'intégration des infographies requêtées par l'utilisateur puis retournées par le module 20 de traitement de données dans les articles rédigés ; - permettre l'injection (flèche pointillée 110) de données primaires dans le système 100 de journalisme de données, c'est-à-dire de données directement produites par le journaliste. A titre d'exemple, l'interface graphique propose optionnellement au journaliste d'ajouter dans le système 100 de journalisme de données une interview qu'il a lui même réalisé. Celle-ci est alors communiquée au module 10 d'acquisition de données en vue de son formatage, puis transmise au module 20 de traitement de données pour son stockage et son indexation ; provide tools for writing articles, and the integration of user requested infographics and returned by the data processing module 20 in the articles written; allow the injection (dashed arrow 110) of primary data into the data journalism system 100, i.e. data directly produced by the journalist. For example, the graphical interface optionally offers the journalist to add in the system 100 of data journalism an interview he has himself made. This is then communicated to the data acquisition module 10 for formatting and then transmitted to the data processing module 20 for storage and indexing;
proposer la sélection d'un ou plusieurs modèles de mise en page de données, c'est-à-dire de templates, afin de structurer un article, en fonction du support de publication auquel il est destiné ;  proposing the selection of one or more models of data layout, that is, templates, in order to structure an article, according to the publication medium for which it is intended;
permettre la publication (flèche 111) d'articles vers un ou plusieurs supports 7 informatiques par exemple vers des Smartphones, des tablettes, ou des navigateurs Web. Avantageusement, la publication d'un article peut être réalisée de manière dynamique, c'est-à-dire être évolutive au cours du temps. A titre d'exemple, un journaliste ayant déjà publié une infographie se rapportant à une ou plusieurs données, peut faire évoluer cette infographie en prenant en compte des données nouvellement ajoutées ou mises à jours dans la base de données du module 20 de traitement de données. Dans un autre exemple, le journaliste publie une première ébauche d'article, qu'il agrémente au cours du temps avec une ou plusieurs représentations graphiques proposées par le système 100 de journalisme de données. Le système 100 de journalisme de données permet donc d'assurer la gestion du cycle de vie des données, via leur mise à jour, la mise à jour de leur source, et leur mise en avant auprès du journaliste pour la réalisation d'articles ;  allow the publication (arrow 111) of articles to one or more computer media 7 for example to smartphones, tablets, or web browsers. Advantageously, the publication of an article can be performed dynamically, that is to say, be scalable over time. For example, a journalist who has already published an infographic relating to one or more data, can evolve this infographic by taking into account data newly added or updated in the database of the data processing module 20 . In another example, the journalist publishes a first draft article, which it embellishes over time with one or more graphic representations proposed by the system 100 of data journalism. The system 100 of data journalism thus makes it possible to ensure the management of the life cycle of the data, by updating them, updating their source, and putting them forward to the journalist for the production of articles;
permettre l'exportation (flèche 112) sous un format 8 prédéterminé, par exemple l'impression d'un article sous un format PDF.  allow the export (arrow 112) in a predetermined format 8, for example the printing of an article in a PDF format.
Selon un mode de réalisation, le module 30 de gestion de données est réalisé sur le modèle d'un système de gestion de contenu CMS, acronyme anglais de « Content Management System », configuré pour réaliser l'ensemble opérations exposées ci-dessus.  According to one embodiment, the data management module 30 is made on the model of a content management system CMS, acronym for "Content Management System", configured to perform the set of operations described above.
Avantageusement, grâce à l'utilisation conjointe du module 10 d'acquisition de données, du module 20 de traitement de données et du module 30 de gestion de données, le système 100 de journalisme de données facilite le travail des journalistes en de nombreux points. Un tel système permet, notamment, à partir d'un nombre élevé de sources pouvant être très hétérogènes et ne comportant au départ pas nécessairement de données structurées, de répondre aux requêtes des journalistes via la restitution d'une information structurée. Advantageously, thanks to the joint use of the data acquisition module 10, the data processing module 20 and the data management module 30, the system 100 of journalism of data facilitates the work of journalists in many ways. Such a system allows, in particular, from a large number of sources that can be very heterogeneous and initially not necessarily containing structured data, to respond to requests from journalists via the return of structured information.
Avantageusement, le système 100 de journalisme de données collecte un ensemble de données non-structurées à partir de ces sources hétérogènes et les formate de manière automatique en vue d'obtenir des données exploitables pour la réalisation de toute structure de données, telle une représentation graphique. Avantageusement, le choix d'un formatage approprié permet de rendre ces données interopérables avec tout système de journalisme et plus généralement tout système à but informatif, à titre d'exemples l'ensemble des données sont compatibles avec le standard IPTC, les systèmes informatique de salle de rédaction NRCS, les réseaux sociaux ou encore les outils de microblogage.  Advantageously, the data journalism system 100 collects a set of unstructured data from these heterogeneous sources and formats them automatically in order to obtain usable data for the realization of any data structure, such as a graphical representation. . Advantageously, the choice of an appropriate formatting makes it possible to make this data interoperable with any journalism system and more generally any information-based system, as examples the data set is compatible with the IPTC standard, the computer systems of NRCS newsroom, social networks or microblogging tools.
Un tel système permet donc la constitution d'une base de données de nature très riche, grâce à la grande variété des sources existantes, telles les sources Internet (sites, articles, blogs) et les données injectées par les journalistes dans le système. Une telle base de données est par ailleurs évolutive, c'est-à-dire prend en compte aussi bien, l'ajout de nouvelles données, la mise à jour de données ainsi que des métriques qui leurs sont associées, fournissant ainsi aux journalistes une information dynamique et fiable.  Such a system thus allows the constitution of a database of very rich nature, thanks to the wide variety of existing sources, such as Internet sources (sites, articles, blogs) and data injected by journalists into the system. Such a database is also scalable, that is to say, takes into account as well, the addition of new data, the updating of data as well as metrics associated with them, thus providing journalists with a Dynamic and reliable information.
Avantageusement, l'interface graphique proposée par le système Advantageously, the graphic interface proposed by the system
100 de journalisme de données, facilite la prise de décision du journaliste dans le choix d'un sujet de rédaction d'article, grâce à la mise en avant d'un ensemble de mots clés, se rapportant à des sujets en haute visibilité sur Internet. Une telle interface graphique permet par ailleurs la sélection et la réalisation d'une ou plusieurs structures de données, telles des représentations graphiques, interactives et configurables, parmi un large choix proposé par le système 100 de journalisme de données. Le journaliste peut, ainsi, déterminer rapidement une représentation qu'il juge pertinente pour son article, et la générer de manière automatique, sans faire appel à un service spécialisé en infographie. Le système de journalisme 100 de données permet, en outre, au journaliste de sélectionner directement une ou plusieurs mise en pages en fonction des supports sur lesquels il souhaite publier son article, permettant donc la diffusion des articles, graphiques et infographies produits vers un plus large public. 100 of journalism data, facilitates the decision-making of the journalist in the choice of a topic of article writing, by highlighting a set of keywords, referring to topics in high visibility on the Internet . Such a graphical interface also makes it possible to select and produce one or more data structures, such as graphical, interactive and configurable representations, out of a wide choice proposed by the data journalism system 100. The journalist can thus quickly determine a representation that he considers relevant for his article, and generate it automatically, without using a specialized computer graphics service. The journalism system 100 of data further allows the journalist to directly select one or several layouts depending on the media on which he wishes to publish his article, allowing the dissemination of articles, graphics and computer graphics products to a wider audience.
Avantageusement, le système 100 de journalisme de données facilite donc le travail du journaliste et permet de réduire les coûts de production de ses articles, tout en garantissant une interopérabilité avec les systèmes de production utilisé dans le secteur des médias.  Advantageously, the data journalism system 100 therefore facilitates the work of the journalist and reduces the production costs of his articles, while ensuring interoperability with the production systems used in the media sector.

Claims

REVENDICATIONS
1. Système (100) de journalisme de données pour la structuration de données non-structurées et la publication d'au moins une structure de données associée à un article, ce système comprenant A data journalism system (100) for structuring unstructured data and publishing at least one data structure associated with an article, the system comprising
un module (10) d'acquisition de données configuré pour  a data acquisition module (10) configured for
o réceptionner des données non-structurées à partir d'une pluralité de sources (1, 2, 3, 4, 5, 6) de données hétérogènes ;  receiving unstructured data from a plurality of heterogeneous data sources (1, 2, 3, 4, 5, 6);
o structurer l'ensemble de ces données selon un format pivot permettant de structurer de manière commune l'ensemble des données réceptionnées ;  o structuring all of these data in a pivotal format that makes it possible to structure all the data received in a common manner;
un module (20) de traitement de données configuré pour  a data processing module (20) configured for
o enregistrer les données structurées dans une base de données ; o indexer les données enregistrées ;  o save the structured data in a database; o index the recorded data;
o générer à partir d'une pluralité de données enregistrées au moins une structure de données en réponse à une requête depuis un module (30) de gestion de données, ce module (30) de gestion de données étant configuré pour publier au moins cette structure de données.  generating, from a plurality of stored data, at least one data structure in response to a request from a data management module (30), this data management module (30) being configured to publish at least this structure of data.
2. Système (100) selon la revendication 1, dans lequel le module The system (100) of claim 1, wherein the module
(30) de gestion de données est configuré pour proposer via une interface graphique (30) data management is configured to provide via a graphical interface
o des outils permettant la rédaction d'un article ;  o tools for writing an article;
o la sélection d'une ou plusieurs données indexées par le module (20) de traitement de données ;  o selecting one or more data indexed by the data processing module (20);
o une requête auprès du module (30) de gestion de donnée pour la génération d'une structure de données à partir des données indexées sélectionnées ;  a request to the data management module (30) for the generation of a data structure from the selected indexed data;
o la publication d'un article rédigé avec la structure de données requêtée.  o the publication of an article written with the requested data structure.
3. Système (100) selon les revendications 1 ou 2, dans lequel chaque donnée structurée est associée à au moins un mot-clé apte à identifier cette donnée, et dans lequel  3. System (100) according to claims 1 or 2, wherein each structured data is associated with at least one keyword able to identify this data, and wherein
le module (20) de traitement de données configuré pour  the data processing module (20) configured for
o évaluer la pertinence de chaque donnée structurée et indexée à partir d'au moins une métrique prédéterminée ; o communiquer au module (30) de gestion de données un ensemble de mots-clés associés aux données jugées comme pertinentes ; le module (30) de gestion de données est configuré pour proposer via une interface graphique la sélection d'une ou plusieurs données indexées par le module (20)de traitement de données à partir des mots-clés communiqués par le module (20) de traitement de données. o evaluate the relevance of each structured and indexed data from at least one predetermined metric; o communicating to the data management module (30) a set of keywords associated with the data deemed relevant; the data management module (30) is configured to propose, via a graphical interface, the selection of one or more data indexed by the data processing module (20) from the keywords communicated by the module (20) of data processing.
4. Système (100) selon la revendication 3, dans lequel une métrique prédéterminée est choisie parmi une liste de métrique comprenant : le nombre d'occurrences d'un mot clé commun à différentes données, la popularité ou la visibilité d'un sujet ou ensemble de mots clés sur Internet, la fréquence d'utilisation au cours du temps d'un mot clé par différents utilisateurs du système (100) de journalisme de données.  The system (100) of claim 3, wherein a predetermined metric is selected from a metric list comprising: the number of occurrences of a keyword common to different data, the popularity or visibility of a subject or set of keywords on the Internet, the frequency of use over time of a keyword by different users of the system (100) of data journalism.
5. Système (100) selon l'une quelconque des revendications 1 à 5. System (100) according to any one of claims 1 to
4, dans lequel les données sont formatées selon un format pivot en accord avec le standard IPTC. 4, wherein the data is formatted according to a pivot format in accordance with the IPTC standard.
6. Système (100) selon l'une quelconque des revendications 1 à The system (100) according to any one of claims 1 to
5, dans lequel le module (20) de traitement de données est configuré pour enregistrer les données structurées dans une base de données5, wherein the data processing module (20) is configured to store the structured data in a database
NoSQL. NoSQL.
7. Système (100) selon l'une quelconque des revendications 1 à 7. System (100) according to any one of claims 1 to
6, dans lequel le module (30) de gestion de données est configuré pour proposer lors de la réalisation d'un article, la sélection d'un ou plusieurs modèles de mise en page de données, permettant de structurer l'article en fonction de son support de publication. 6, in which the data management module (30) is configured to propose when producing an article, the selection of one or more data layout templates, making it possible to structure the article as a function of its publication support.
8. Méthode pour la structuration de données non-structurées et la publication d'au moins une structure de données associée à un article de journalisme de données, cette méthode comprenant  8. Method for structuring unstructured data and publishing at least one data structure associated with a data journalism article, which method comprises
- une étape de réception de données non-structurées à partir d'une pluralité de sources (1, 2, 3, 4, 5, 6) de données hétérogènes ; une étape de structuration de l'ensemble de ces données selon un format pivot permettant de structurer de manière commune l'ensemble des données réceptionnées ; a step of receiving unstructured data from a plurality of heterogeneous data sources (1, 2, 3, 4, 5, 6); a step of structuring all of these data in a pivot format for structuring in a common manner all the data received;
- une étape d'enregistrement des données structurées dans une base de données ; une étape d'indexation des données enregistrées ; a step of recording the structured data in a database; a step of indexing the recorded data;
une étape de génération à partir d'une pluralité de données enregistrées d'au moins une structure de données en réponse à une requête ;  a generation step from a plurality of stored data of at least one data structure in response to a request;
- une étape de publication de la structure de données avec un article de journalisme de données. - a step of publishing the data structure with a data journalism article.
9. Méthode selon la revendication 8, dans laquelle  The method of claim 8, wherein
chaque donnée structurée est associée à au moins un mot-clé apte à identifier cette donnée ;  each structured data item is associated with at least one keyword able to identify this datum;
- l'étape de structuration des données est réalisée selon un format pivot en accord avec le standard IPTC ; the data structuring step is performed according to a pivot format in accordance with the IPTC standard;
cette méthode comprenant en outre les étapes suivantes this method further comprising the following steps
une étape d'évaluation de la pertinence de chaque donnée structurée et indexée à partir d'au moins une métrique prédéterminée, cette métrique étant choisie parmi un liste de métriques comprenant le nombre d'occurrences d'un mot clé commun à différentes données, la popularité ou la visibilité d'un sujet ou ensemble de mots clés sur Internet, la fréquence d'utilisation au cours du temps d'un mot clé ;  a step of evaluating the relevance of each structured and indexed data item from at least one predetermined metric, this metric being chosen from a list of metrics comprising the number of occurrences of a keyword common to different data, the popularity or visibility of a topic or set of keywords on the Internet, the frequency of use over time of a keyword;
- une étape de communication d'un ensemble de mots-clés associés aux données jugées comme pertinentes ; a step of communicating a set of keywords associated with the data deemed relevant;
une étape de proposition de sélection d'une ou plusieurs données indexées à partir des mots-clés communiqués.  a step of proposing the selection of one or more data indexed from the communicated keywords.
10. Produit programme d'ordinateur implémenté sur un support mémoire, susceptible d'être mis en œuvre au sein d'une unité de traitement informatique et comprenant des instructions pour la mise en œuvre d'une méthode selon l'une des revendications 8 ou 9.  10. Computer program product implemented on a memory medium, capable of being implemented within a computer processing unit and comprising instructions for the implementation of a method according to one of claims 8 or 9.
PCT/FR2015/053078 2014-11-18 2015-11-16 Data logging system and method WO2016079402A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1461126 2014-11-18
FR1461126A FR3028636B1 (en) 2014-11-18 2014-11-18 SYSTEM AND METHOD OF DATA JOURNALISM

Publications (1)

Publication Number Publication Date
WO2016079402A1 true WO2016079402A1 (en) 2016-05-26

Family

ID=52469082

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2015/053078 WO2016079402A1 (en) 2014-11-18 2015-11-16 Data logging system and method

Country Status (2)

Country Link
FR (1) FR3028636B1 (en)
WO (1) WO2016079402A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100095197A1 (en) * 2008-10-13 2010-04-15 Sap Ag System and method for dynamic content publishing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100095197A1 (en) * 2008-10-13 2010-04-15 Sap Ag System and method for dynamic content publishing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Conceptual Modelling in Information Systems Engineering", 5 June 2007, SPRINGER BERLIN HEIDELBERG, Berlin, Heidelberg, ISBN: 978-3-54-072676-0, article PATRICK ZIEGLER ET AL: "Data Integration - Problems, Approaches, and Perspectives", pages: 39 - 58, XP055201967, DOI: 10.1007/978-3-540-72677-7_3 *
FLORESCU D ET AL: "Database techniques for the World-Wide Web: a survey", SIGMOD RECORD, ACM, NEW YORK, NY, US, vol. 27, no. 3, 1 September 1998 (1998-09-01), pages 59 - 74, XP002163252, ISSN: 0163-5808, DOI: 10.1145/290593.290605 *
GIUSY DI LORENZO ET AL: "Data integration in mashups", ACM SIGMOD RECORD, vol. 38, no. 1, 24 June 2009 (2009-06-24), pages 59 - 66, XP055201772, ISSN: 0163-5808, DOI: 10.1145/1558334.1558343 *
MOHAND-SAÏD HACID ET AL: "L'intégration de sources de données", REVUE INFORMATION - INTERACTION - INTELLIGENCE (I3), 30 June 2004 (2004-06-30), XP055201773 *

Also Published As

Publication number Publication date
FR3028636B1 (en) 2017-12-08
FR3028636A1 (en) 2016-05-20

Similar Documents

Publication Publication Date Title
Eberendu Unstructured Data: an overview of the data of Big Data
US9645787B1 (en) Tag-based electronic media playlist processing
US20200226133A1 (en) Knowledge map building system and method
US20100114991A1 (en) Managing the content of shared slide presentations
Hoekstra et al. Data scopes for digital history research
Murthy et al. Big Data solutions on a small scale: Evaluating accessible high-performance computing for social research
CA2677802A1 (en) A method and system for integrating a social network and data repository to enable map creation
US11934467B2 (en) Advanced keyword search
Lässig Digital History: Challenges and Opportunities for the Profession
Higgins et al. Archives context and discovery: Rethinking arrangement and description for the digital age
US20130132368A1 (en) Large scale analytical reporting from web content
US20140310262A1 (en) Multiple schema repository and modular database procedures
Lin et al. A hyperconnected manufacturing collaboration system using the semantic web and Hadoop Ecosystem System
CN107430633B (en) System and method for data storage and computer readable medium
CN105069175A (en) Information retrieval method and server based on version control system
O’Dell RDA and the description of zines: metadata needs for alternative publications
WO2016079402A1 (en) Data logging system and method
US20170205989A1 (en) Graphical user interface for non-hierarchichal file system
Niu Archival intellectual control in the digital age
Arlitsch Being irrelevant: how library data interchange standards have kept us off the internet
US20160188603A1 (en) Quotation management platform
Donig et al. Web archive analytics: Blind spots and silences in distant readings of the archived web
Coviaux Optimization of the search engine ElasticSearch
Tian et al. Creating and Democratizing Linked Open Data in Digital Archives: Report of the Core MARC Formats Transition Interest Group Meeting, ALA Core Virtual Interest Group Week, March 2022
Cui et al. PrEV: Preservation Explorer and Vault for Web 2.0 User-Generated Content

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15817933

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15817933

Country of ref document: EP

Kind code of ref document: A1