OWNI http://owni.fr News, Augmented Tue, 17 Sep 2013 12:04:49 +0000 http://wordpress.org/?v=2.9.2 fr hourly 1 La data enfourche son vélo sur les routes de l’Europe http://owni.fr/2011/05/17/la-data-enfourche-son-velo-sur-les-routes-de-leurope/ http://owni.fr/2011/05/17/la-data-enfourche-son-velo-sur-les-routes-de-leurope/#comments Tue, 17 May 2011 06:30:08 +0000 Camille Josse http://owni.fr/?p=62765 Congestion, pollution sonore et atmosphérique, stress au volant, l’utilisation systématique de la voiture particulière pour les déplacements quotidiens étouffe les grandes métropoles. A l’heure où la majorité de la population mondiale vit en ville, il est temps de lui trouver des alternatives. Des alternatives car une réponse unique ne suffit pas au problème complexe de la mobilité urbaine. Transports publics, autopartage, covoiturage, les solutions motorisées sont nombreuses, mais la révolution des transports au 21ème siècle pourrait aussi se faire à pédales.

Le vélo, mode de transport flexible et pratique, s’impose comme un complément des modes actuels et séduit de plus en plus les citadins et municipalités après des années de désaffection. Alors, quelle place aujourd’hui pour le vélo dans les grandes métropoles européennes?

Pour mesurer l’intérêt autour du vélo l’invention de la bicyclette, jetons d’abord un œil sur Google Ngram Viewer (ndlr: outil de Google permettant de visualiser sous forme de graphiques les fréquences d’apparition de mots dans les livres numérisés depuis 2003 sur Google Books).

Source : ngram viewer

La forte hausse d’intérêt de 1944 s’explique par la pénurie de pétrole et de pièces détachées automobile lors de la seconde guerre mondiale, à un moment où le vélo était déjà massivement utilisé pour les déplacements quotidiens. Si entre les années 1965-1970 l’intérêt autour du vélo est en stagnation ou en baisse en Europe, il semble être depuis en constante augmentation, plus visiblement en Allemagne et dans les pays hispanophones.

Le cycle urbain en 2011

Les pratiques actuelles en Europe sont ainsi loin d’être homogènes. Selon une étude conduite pour l’Union Européenne en 2009, la part modale du vélo dans les déplacements domicile-travail ou domicile-étude reste minoritaire dans les grandes villes européennes. (Source Urban Audit 2010)

L’échantillon de cette étude est réduit, 500 personnes par ville, mais celle ci permet d’illustrer la tendance actuelle avec des résultats récents et une méthodologie commune à l’échelle Européenne. Les résultats sont dans la lignée des précédentes études sur la mobilité réalisées en Europe. En France, la part modale du vélo pour les déplacements domicile-travail était de 2.3% et 3.8% à Paris intra muros selon les études nationales transport et déplacement de 1994 et 2008.

Le vélo est cependant le mode de transport qui progresse le plus dans les villes depuis les années 1990 :

• A Berlin sa pratique à augmenté de 18% entre 2001 et 2008 (Source : Senate Department of Urban Development – Berlin – Cycling, paths and bicycle use).

• 2 fois plus de cyclistes entrent dans le centre de Londres entre 7h et 10h du matin en 2006 (base 1991)

• Le flux de cyclistes sur les principales routes londoniennes augmente de 60%sur la même période.


(Source: Transport For London, London travel report 2007)

À Budapest la révolution est aussi en selle, grâce à une prise en compte des cyclistes par la municipalité dès 2005 suite à une importante mobilisation citoyenne. Ainsi, les associations y ont organisé régulièrement des Masses critiques avec un nombre de participants en constante hausse au fil des ans. En 2004, la Masse critique rassemblait 4000 cyclistes, 20 000 en 2006 , 50 000 l’année suivante et enfin 80 000 en 2008 selon les estimations.

Les politiques cyclables en Europe

Les autorités compétentes en matière de politique cyclables diffèrent au sein des états européens. Elles peuvent être intégrées aux plans de transport, santé ou environnement ( Norvège, Danemark ) ou en être indépendantes ( Allemagne, Finlande, Royaume Uni ). En ce qui concerne les autres pays européens, ils déterminent le plus souvent un cadre légal favorisant la pratique du vélo, comme c’est le cas en France avec la récente mise en place des zones 30 et des doubles sens cyclables.

Les capitales européennes disposent pour la plupart de leurs propres schémas directeurs pour le développement du vélo. Paris a son Plan Vélo qui prévoit notamment l’aménagement de nouvelles pistes cyclables en plus des 440km déjà existants, afin d’atteindre 700km d’ici 2014. Le Vélib lancé en 2007 a déjà changé les pratiques de mobilité des parisiens. Tout en offrant une nouvelle alternative de transport, le vélo en libre service envoie un signal fort aux cyclistes et automobilistes, en montrant que la pratique du vélo est acceptée et même encouragée en ville. Londres a lancé l’année dernière sa « Cycling Revolution », inaugurant ses deux premières routes cyclables et son système de vélo en libre service.

Pour mesurer le pouls de la pratique du vélo à un niveau global, Steven Gray a créé un baromètre en temps réel du pourcentage de vélos en libre service utilisé dans différentes villes, le Bike O Meter.

La culture du cycle 2.0

Si la suprématie de la voiture particulière se fait toujours sentir dans la majorité des métropoles européennes, il semble néanmoins que les usagers réguliers du vélo partent désormais à la reconquête de la rue. Ils se fédèrent eux aussi en réseaux internationaux et effectuent leur propre promotion, afin d’amener à la création d’une réelle culture du cycle urbain.

En témoigne le succès des blogs Copenhaguenize, London Cyclist, ou encore Copenhaguen Cycle Chic. Ce dernier a même fait des petits, puisque les chics cyclistes de tous les jours sont désormais pris en photos à Berlin, Vienne, Séville… Un renouveau culturel loin des questions d ‘écologie et de développement durable auxquelles on rattache souvent l’usage du vélo, mais bien plus proche des utilisateurs potentiels.

Si un véritable mode de vie du vélo est déjà ancré dans les mentalités des habitants de ville telles que Copenhague ou Amsterdam, il commence donc à se développer dans les autres villes européennes, avec la création de cafés vélo à Londres, déjà 3 en 2011, et d’ateliers vélos qui œuvrent pour le recyclage des vieux biclous une meilleure « vélonomie » des usagers.

Enfin, outre le fait que le vélo soit le moyen de transport urbain le plus rapide pour se rendre d’un point A à un point B, il véhicule aussi une certaine image de bien être. Bien être physique des utilisateurs, mais aussi mieux être dans la ville. L’amélioration de la qualité du cadre de vie, à travers la réduction des nuisances sonores dues au trafic automobile et une diminution du sentiment d’insécurité qui lui est lié, mais aussi amélioration de la qualité de l’air et donc de la santé publique. Dès lors, après des années de recherche de la vitesse à tout prix dans les transports, la renaissance du vélo sonne aussi comme un retour de l’humain dans la ville.

Photo FlickR CC : AttributionNoncommercialNo Derivative Works Mikael Colville-Andersen

]]>
http://owni.fr/2011/05/17/la-data-enfourche-son-velo-sur-les-routes-de-leurope/feed/ 0
L’interprétation des graphiques produits par Ngram Viewer http://owni.fr/2011/01/11/l%e2%80%99interpretation-des-graphiques-produits-par-ngram-viewer/ http://owni.fr/2011/01/11/l%e2%80%99interpretation-des-graphiques-produits-par-ngram-viewer/#comments Tue, 11 Jan 2011 15:51:58 +0000 Patrick Peccatte http://owni.fr/?p=41918 Ngram Viewer [en] est un nouvel outil mis en ligne par Google le 16 décembre dernier [en]. Il permet de visualiser sous forme de graphiques les fréquences d’apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. Ce projet a été initié en 2007 par un mathématicien et physicien américain, Erez Lieberman Aiden [en]. Il a été soutenu par Google Labs et développé par des chercheurs de Harvard, en particulier Jean-Baptiste Michel, jeune polytechnicien français.

Apparition et évolution de la fréquence des mots télégraphe, téléphone, radio, télévision, Internet, internet en français de 1800 à 2008. Remarquez que l’outil distingue les majuscules et minuscules (‘Internet’ apparaît plus tôt que ‘internet’ et il est plus fréquent). Pour tous les exemples illustrés de ce billet, cliquez sur le graphique correspondant afin d’afficher la requête directement dans Ngram Viewer.

L’application contient actuellement les mots extraits de plus de 5 millions d’ouvrages, ce qui correspond d’après les développeurs à 4% des livres jamais publiés. Les ouvrages les plus anciens utilisés dans le projet remontent aux XVIème siècle mais la très grande majorité sont postérieurs à 1800.

Il s’agit en fait d’un énorme lexique interrogeable contenant plus de 500 milliards de mots et organisé en sous-lexiques par langue : anglais (361 milliards de mots = Mm) [différencié en anglais américain et britannique], français (45 Mm), espagnol (45 Mm), allemand (37 Mm), russe (35 Mm), chinois (13 Mm) et hébreu (2 Mm).

Sans trop entrer dans les détails techniques, les lexiques sont des tables composées de n-grammes, c’est-à-dire des séquences de mots apparaissant dans les ouvrages numérisés. L’outil met ainsi en œuvre cinq catégories de tables : monogrammes (mots uniques), bigrammes (deux mots qui se suivent)… , jusqu’aux 5-grammes (cinq mots successifs). Il n’est donc pas possible de connaître à l’aide de Ngram Viewer les fréquences d’apparition du vers de Verlaine De la musique avant toute chose qui comporte six mots. Par contre, on trouvera les deux séquences de cinq mots chacune De la musique avant toute et la musique avant toute chose dont les courbes représentatives affichées par Ngram Viewer sont manifestement corrélées.

Les lexiques sont mis à la disposition du public [en] selon la licence Creative Commons et sous la forme de fichiers au format CSV. Bien que très volumineux, ils sont donc facilement lisibles et l’on devrait ainsi voir apparaître de nouvelles applications les utilisant. À titre d’exemple, une ligne du lexique 5-grammes français se présente ainsi :

principes fondamentaux de la philosophie 1988 17 16 12

où la suite de mots principes fondamentaux de la philosophie est un 5-gramme, 1988 l’année de parution des livres analysés, 17 le nombre d’occurrences de la suite de mots dans l’ensemble des ouvrages de l’année en question, 16 le nombre de pages différentes et 12 le nombre de livres où la séquence apparaît. Aucune référence aux ouvrages analysés ne figure dans ces tables qui ne contiennent qu’une compilation de comptages d’occurrences.

Une masse de statistiques extrêmement sommaires et synthétiques

Ces différents sous-lexiques sont donc par construction totalement « autonomes », indépendants de Google Books. Il s’agit là manifestement d’un choix stratégique de Google qui aurait pu construire un outil beaucoup plus sophistiqué relié à sa base d’ouvrages numérisés. Le projet peut dès lors fonctionner sans qu’il soit nécessaire de mettre à la disposition des utilisateurs l’accès aux documents (initiative controversée comme on le sait). Mais ce choix comporte aussi un inconvénient majeur puisqu’il interdit de rechercher sur le voisinage plus éloigné des mots et empêche toute contextualisation des résultats (quel livre, quelle page, quel paragraphe contiennent telle suite de mots). L’utilisateur ne dispose que de statistiques extrêmement sommaires et synthétiques, mais il en voit énormément. On regrettera que les concepteurs n’aient pas facilité la tâche des analystes, ne serait-ce qu’en stockant dans chaque entrée de lexique les id Google Books des trois ouvrages qui contribuent le plus au nombre d’occurrences.

Les approximations de la reconnaissance de caractères (OCR) utilisée dans Google Books se retrouvent sur Ngram Viewer. Ainsi, la plupart des observateurs mentionnés dans la webographie sélective ci-dessous mettent en évidence l’évolution progressive de la graphie du s long – reconnu par l’OCR comme un f – vers la forme du s minuscule que nous connaissons actuellement.

La disparition progressive du s long : plufieurs, plusieurs, prefque, presque de 1750 à 1830 (français). À noter que l'évolution du mot "plusieurs" semble anticiper celle de "presque", peut-être sous l'influence du s final du mot.

De même, de nombreuses évolutions de graphies issues pour la plupart de diverses réformes de l’orthographe peuvent être visualisées très rapidement, et le résultat est souvent spectaculaire (exemples: mes parens, mes parents en français, quando, cuando en espagnol).

Mais on relève aussi de nombreuses erreurs d’OCR et surtout l’attribution de dates de publication erronées à des documents comme on peut le voir par exemple sur le mot Internet. La réédition de certains ouvrages est certainement la cause d’un grand nombre de ces erreurs. Pour Natalie Binder [en], il se pourrait même à terme que l’intérêt principal de Ngram Viewer consiste à identifier rapidement les erreurs d’OCR et de dates sur Google Books !

L’aspect purement lexical du projet qui ne distingue pas les polysémies rend de nombreuses recherches pratiquement impossibles (essayez d’afficher la fréquence des noms de saison en français par exemple).

La culturonomique, un nouveau champ d’application de la lexicométrie

L’équipe de développement de Ngram Viewer a publié dans la revue Science un article intitulé Quantitative analysis of culture using millions of digitized books [pdf, en] qui introduit le terme cultoromics (cultoronomique en français) pour désigner un nouveau champ d’application de la lexicométrie. Les auteurs ont aussi lancé un site web culturomics.org [en]. Amalgame de culture et de genomics [en], domaine dans lequel plusieurs membres de l’équipe dont Erez Aiden ont travaillé, cette activité prétend en quelque sorte mettre en évidence des évolutions culturelles sur de longues périodes à travers l’analyse de fréquence portant sur de très vastes corpus de mots.

Dans leur remarquable billet Prodiges et vertiges de la lexicométrie sur le blog Socioargu, Francis Chateauraynaud et Josquin Debaz s’interrogent sur la pertinence de certaines recherches ignorant les évolutions du sens des mots sur de longues périodes et émettent de sérieuses réserves concernant l’ambition culturonomique. À tout le moins, la tentative manifeste de créer une nouvelle discipline en la nommant d’après un champ de recherche de la biologie et sur une seule référence de publication dans un journal scientifique semble assez immodeste et pose problème. Je renvoie sur ces questions méthodologiques et épistémologiques à l’article de Socioargu ainsi qu’à ceux de Dan Cohen [en], d’Olivier Ertzscheid, et à la discussion sur Language Log [en].

La mise en ligne de Ngram Viewer a provoqué une profusion d’exemples postés sur différents sites ou blogs, très souvent sans aucun commentaires. Ils sont proposés sur un mode presque ludique, présentés sous un format antagonique (X vs Y), et comme si les courbes tracées suffisaient à mettre au jour de réels phénomènes linguistiques ou culturels. Quelques collections sont apparues (clic, clicclicclic, clic [en]) et il existe aussi une extension pour Chrome [en] permettant de donner directement la courbe de fréquences d’une entrée de Wikipedia en anglais.

Délicate et difficile interprétation

La facilité d’usage ne masque pas cependant le fait que l’interprétation de la plupart de ces graphiques est totalement impossible sans plonger dans l’analyse des documents numérisés sur Google Books. Or cette tâche est non seulement d’une ampleur colossale pour le moindre exemple de visualisation mais elle est tout simplement irréalisable en ligne puisque les documents sous copyright ne sont pas consultables. Les cas intéressants sur le plan « culturel » pour lesquels une interprétation probante peut être réalisée montrent des corrélations avec des événements historiques majeurs comme les deux guerres mondiales. C’est d’ailleurs l’un des exemples proposés par les auteurs de l’article de Science.

En l’absence de possibilité de vérification des hypothèses que l’on peut être amené à formuler sur une visualisation, l’utilisateur est laissé seul avec ses propres connaissances et intuitions en face du phénomène ou de l’artefact repéré. Comme le signalent les auteurs de l’article de Socioargu mentionné, cela signifie que l’investigateur doit d’abord « disposer d’une culture générale suffisante pour comprendre le positionnement relatif des mots dans le temps ».

Ngram Viewer doit en fait être considéré comme un outil heuristique qui permet plus de poser de nouvelles questions que d’apporter des réponses. Pour commencer à dépasser le stade du jeu avec Ngram Viewer, il serait intéressant de mettre en commun les efforts de groupes de spécialistes intéressés par un sujet en ouvrant des espaces de discussions sur des visualisations, créer en somme une véritable activité de travail collaboratif à partir des graphiques produits permettant de documenter et approfondir les résultats. Un début d’interprétation de ces vastes mais très sommaires lexiques pourrait alors être envisagé et ouvrir des champs de réflexion nouveaux pour les digital humanities.

Pour terminer, voici quelques exemples de résultats en relation avec des questions diverses abordées sur Culture Visuelle.

photographie, photo, photographies, photos (français, 1900-2008). Vers 1970, la forme abrégée "photo" devient plus fréquente que le mot "photographie".

image, picture, images, pictures (anglais, 1800-2008)

photographie argentique, photographie numérique (français, 1960-2008)

le savant, le chercheur, les savants, les chercheurs (français, 1780-2008). Note: les articles 'le' et 'les' permettent de minimiser l'impact du participe seul sur le résultat.

culture populaire, culture savante (français, 1800-2008)

NASA,NOAA,NIST,NIH,USGS,ARS,NSF,DARPA,NIEHS,USFS,USDA (anglais, 1950-2008). Le poids prédominant de la NASA dans la médiatisation de la recherche américaine.

événements de mai 1968, événements de mai 68, révolte de mai 1968, révolution de mai 1968 (français, 1960-2008). Les termes 'révolte' et 'révolution' présents dans les années 70 disparaissent. La forme non abrégée '1968' devient moins fréquente tandis que la forme abrégée '68' est légèrement plus présente.

Gitans, Romanichels, Tsiganes, Roms (français, 1900-2008). Exemple emprunté à Bibliothèques reloaded.

carte postale, cartes postales (français, 1870-2008)

Webographie sélective

En anglais

En français

Billet initialement publié sur Déjà vu, un blog de Culture Visuelle

Image CC Flickr Oberazzi

]]>
http://owni.fr/2011/01/11/l%e2%80%99interpretation-des-graphiques-produits-par-ngram-viewer/feed/ 3
Culturonomics: juste une question de corpus? http://owni.fr/2011/01/11/culturonomics-juste-une-question-de-corpus/ http://owni.fr/2011/01/11/culturonomics-juste-une-question-de-corpus/#comments Tue, 11 Jan 2011 11:26:12 +0000 Olivier Ertzscheid http://owni.fr/?p=41686

À quoi sert de numériser des millions d’ouvrages depuis 2005 ? À ça (« Quantitative Analysis of Culture Using Millions of Digitized Books », article publié dans la revue scientifique Science). Disposer de 4% de tous les livres publiés depuis 2 siècles. 7 langues. 2 milliards de mots. 5,2 millions de livres numérisés “inside” (voir l’article du NYTimes).

Deux corpus. Mais qu’est-ce qu’un corpus ?

  • Ensemble de données exploitables dans une expérience d’analyse ou de recherche automatique d’informations.” (Source : Trésor de la langue française)
  • Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire” (Source : Trésor de la langue française)

Dans le domaine du droit, le corpus : “C’est l’élément matériel de la possession, le pourvoir de fiat exercé sur une chose. (Animus).

Du premier corpus, celui de Google, on ne pourra que se réjouir, pour ce qu’il représente de potentialités ouvertes dans l’aventure linguistique comme compréhension du monde. Et l’on mettra du temps à en épuiser les possibles. Mais nul doute qu’il contribuera aussi à alimenter tous les fantasmes, celui, notamment, d’une “intelligence artificielle” dévoyée, apprenant à penser en déchiffrant ce que le plus grand corpus du monde révèle des pensées de ce même monde. Les ingénieurs ont même inventé un mot pour cela : “culturonomics”. Culture et génomique. Enthousiasmant. Pour l’instant. Et pour les linguistes.

Du second corpus, celui de Facebook, on ne peut que continuer à raisonnablement s’alarmer. Surtout lorsque les techniques de traitement dudit corpus prennent cette orientation, rendant plus que jamais nécessaire la mise en œuvre d’un littéral Habeas Corpus numérique.

Dans l’histoire des sciences, les scientifiques de tous les domaines, de toutes les époques, de toutes les disciplines, se sont en permanence efforcés de prendre l’ascendant sur leur différents corpus ; pour pouvoir être exploitable, le corpus doit pouvoir être circonscrit par ceux qui prétendent en faire l’analyse.

Il n’y a rien que l’homme soit capable de vraiment dominer : tout est tout de suite trop grand ou trop petit pour lui, trop mélangé ou composé de couches successives qui dissimulent au regard ce qu’il voudrait observer. Si ! Pourtant, une chose et une seule se domine du regard : c’est une feuille de papier étalée sur une table ou punaisée sur un mur. L’histoire des sciences et des techniques est pour une large part celle des ruses permettant d’amener le monde sur cette surface de papier. Alors, oui, l’esprit le domine et le voit. Rien ne peut se cacher, s’obscurcir, se dissimuler.

Bruno Latour, Culture technique, 14, 1985 (cité par Christian Jacob dans L’Empire des cartes, Albin Michel, 1992).

L’informatique, les outils de la linguistique de corpus ont permis aux linguistes de rester les maîtres de corpus aux dimensions exponentielles. Même chose dans le domaine de la médecine : disséquer une grenouille est une chose (et un corpus), séquencer le génome humain en est une autre. Dans tous ces cas comme dans les courbes proposées par Google, le scientifique est parvenu à “ruser” le monde pour user de son corpus.

Et donc ? Nos sociétés de données, nos sociétés d’une exponentielle et inconcevable immensité de données, nourrissent en permanence des monstres calculatoires et industriels (voir les textes d’Hervé Le Crosnier sur le sujet, ou ) qui, dans certains domaines, sont en passe d’être les seuls capables de circonscrire des corpus qui relèvent, pourtant, du bien commun. Aujourd’hui déjà la génomique, demain peut-être la linguistique, après demain qui sait, les traits culturels ? Culturonomics. Le génome de la culture.

S’il est vrai, comme le remarque Jean Véronis dans son billet que “la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques“, je pense que le choix terminologique de Google dépasse, de loin, la seule interdisciplinarité ; Culturonomics : dans l’histoire de Google comme dans ses liens les plus intimes, la culture et le génome sont les deux brins d’un même ADN fondateur.

Moralité. Celui qui peut dire que la vie l’emporte sur la mort ne doit jamais se retrouver en situation d’être le seul à pouvoir le dire. Ou à prétendre le contraire. Ou à ne pas le dire. Il est de notre responsabilité collective d’y veiller. Habemus corpus. Ceci est notre corp(u)s.

>> Article initialement publié sur Affordance

Retrouvez notre dossier :

Petite histoire de la géologie en quelques mots

La politique, le sexe et Dieu dans Google Books

>> Illustrations FlickR CC : Calamity Meg, J.Salmoral

>> Illustration de Une FlickR CC : stefernie

]]>
http://owni.fr/2011/01/11/culturonomics-juste-une-question-de-corpus/feed/ 5