dimanche 5 décembre 2010

analyse du corpus & premières estimations. bon appétit!

Billet: Séance du 7 décembre 2010.

La recherche numérique en histoire (Web and Data Mining; Information trapping).

Il s'agit ici de pistes découvertes au fil des lectures. J'espère qu'elles seront propices au débat. A vous de compléter, de corriger ou de commenter.
  • David M. Levy, "Contemplating scholarship in the digital age", RMB. A journal of rare books, manuscripts, and cultural heritage, vol. 6 no. 2, 2005, pp.
Dans cet article, l'auteur énonce la formidable poussée de l'informatique dans le milieu de la vie de tous les jours: « [...] culturewide [...] overwhelmed by the flood of email, mass media, information saturated, speed dominated » [...] On pourrait évoquer la génération « push the button ». Cet aspect se diffuse dans la recherche historique et scientifique. Tout va désormais plus vite.

« My concern in this article is with the speed up on [...] scolarship ». Levy s'attarde à décrire les nouveaux processus employés par les historiens pour mener à bien leurs recherches. L'ère du numérique redéfinie les méthodes de travail. Elle a un rôle d'accélérateur que l'on pourrait qualifier par le « tout, tout de suite ». Cet avantage se révèle être un défaut; Comment juguler la masse d'informations colossales venant du Net? (p4: We suffer from information overload ».)

Il y a trop d'informations. Comment s'en sortir? L'auteur confronte la vision de Bush et Pieper (developpement of new technologies/memex & contemplation/leisure!).

« Digital tools are superb instruments for ratio » (page 6). N'y a-t-il plus que le ratio? Et la recherche autre que numérique? La consultation des livres, des archives? Que continue t-elle à apporter? Comment conjuguer ces aspects numériques et analogiques?
  • Bernard Frischer, “The ultimate internet café. Reflections of a practicing digital humanist about designing a future for the research library in the digital age”, in Library as place: Rethinking Roles, Rethinking Space, Council on Library and Information Resources, Washington, D.C., February 2005, pp.
Les idées de cet articles rejoignent celles du premier: « [...] New digital technologies occur with minimum of pain and a maximum of gain » (p 43). Frischer compare le « format papier » du livre et sa version « online ». L'outil numérique décuple les capacités. La « Research Library » devient donc indispensable à tout travail de recherche. On ne cesse de la faire évoluer, (ergonomie, rapidité, pertinence des demandes etc...) le but étant d'éliminer les contraintes classiques liées aux recherches conventionnelles. On peut désormais mener des recherches très poussées tout en restant statique.

Page 51: « Configurated in the right way for work in the digital age and offering facilities such as reality theaters that can never exist in the home, the research library can become the ultimate internet cafe where we convenient and congenial to connect, to remote places [...] »
  • Thomas Mann, "The Peloponnesian War and the Future of Reference, Cataloguing, and Scholarship in Research Libraries"
Article relativement long (41 pages) et plutôt didactique, l'essai de Mann nous explique comment mener à bien une recherche scientifique sur le Web (« Cataloging operations in the promotion of scholarly research »/ « Scholarship vs Quick information seeking »).
On suit les démarches à effectuer à l'aide d'un exemple (« Peloponnesian League »). « On commence du plus général au plus précis ».

L'auteur décris pas à pas son parcours de recherche à l'aide de bases de données et d'outils tel le « scope match subject cataloging ». On peut estimer concrètement les difficultés rencontrées lors de son travail. « On cherche l'entrée la plus pertinente » (problème du « flood »). Les principales étapes du processus sont résumées aux pages 35 et 36.
  • Patrick Leary, “Googling the Victorians”, Journal of Victorian Culture 10:11, 72-86.
« The eureka moments in the life of today's questing scholar adventurer are much more likely to take place in front of computer screen ».

Selon Patrick Leary, le moteur de recherche devient une arme redoutable dans les mains du chercheur ou de l'historien: « Google quicly became my first port of call for tracking down unfamiliar allusions met with in my research on Victorian periodicals, in many cases making resort to more specialised databases and reference books unnecessary ». (page 4/5).

La digitalisation de masse et les progrès techniques changent considérablement la façon dont on aborde tel ou tel sujet.

Revers de la médaille: « Frenzy of reprinting [...] proliferation of cheaps reprints had enormous consequences for canon formation and reading patterns ». (page 8).

Cependant:

« Google merely the future of scholarly discovery [...] The great versatility of googling_the straightforward precision with which it can locate character strings is also, of course it's greatest drawback » [...] page 11.

Émergence de communauté de recherche en ligne. « Online searching is connecting people ». Exemple des « Victorianistes »: « The most active site of interaction between Victorian descendants and Victorianist Scholars will surely be Oxford Dictionnary of National Biography ». [...]
  • Dan Cohen, “From Babel to Knowledge”, D-Lib Magazine, March 2006, Volume 12 Number 3.
Assez technique: Confrontation de « Syllabus Finder, a specialized search engine » (présentation: avantages/inconvénients) et de « H-Bot, automated historical fact finder » (non disponible).

William Turkel, “Searching for History,” Digital History Hacks (12 Oct 2006).

« If you are trying to reach users with an online history site, you want to know what kinds of search they are going to use to get to you ».

Quelles requêtes formuler pour mener à bien une recherche? Les moteurs de recherche sont adaptés aux habitudes des gens? Aux mots-clefs? [à approfondir lors de la séance]
  • Information Trapping - An Interview with Tara Calishain, Future Perfect Publishing (3 Sep 2007).
« I define information trapping as using alert services, RSS feeds, and similar services to bring updated content to you as it’s generated ».

Comment appréhender l'information dans un univers digital qui en est submergé? Comment la capter, l'organiser et la partager? Cet interview répond en partie à cette question.

« Web page change monitors and RSS feeds. Specifically speaking, Google News, Yahoo News, Yahoo Alerts, Web Site Watcher, YouTube, and basically any page or resource that either generates an RSS feed or outputs its data on a page that’s easy to monitor ».
FPP: Are there some best practices for storing, organizing and cataloging the information you trap
Tara: Try to have a separate mailbox or folder for your trapped information. Don’t save too much if you can help it. Keep your cataloging process as simple as possible – as simple as a text file if you can manage it. The more complicated your cataloging gets the tougher it’ll be to keep up with ».
  • Bradley,"Search Engines: Where We Were, Are Now, and Will Ever Be," Ariadne Magazine 47 (Apr 2006).
Il s'agit ici d'un exposé sur l'évolution des moteurs de recherche. « Où en sommes-nous? »

« The field of clustering and query refinement ». L'auteur note, par exemple, l'apparition de la publicité en 1999 dans le moteur de recherche Google; qui devient par la même occasion, leader en 2000. Ce moteur se démarque de ses concurrents tout en restant plus performant. Chaque moteur crée ses propres outils.

L'auteur évoque l'hypothèse de futures requêtes personnalisables selon les gouts de l'utilisateur.
  • Dan Cohen, "The Single Box Humanities Search," dancohen.org (17 Apr 2006).
L'auteur évoque le « réflexe Google » (face à JSTOR et ProQuest). Cohen compare Google Scholar et Windows Live Academic. Ces moteurs de recherche sont-ils adaptés au domaine historique?

« [...] humanities articles aren't as easy as scientific papers [...] outlets for scientific articles are more open and indexable by search engine than humanities journal [...] ».

Des difficultés persistes pour indexer convenablement les requêtes émises par les chercheurs en histoire. Cet article rejoint les commentaires du textes de Turkel.
  • Singel, "Cool Search Engines that are not Google," Wired (30 Jun 2009).
« How do you find a new search engine if all you know is Google? »

Passage en revue des différentes alternatives face au géant Google.

« The smartest one we found is Collecta /Trackle».

Certain moteurs de recherche se spécialisent: « Indeed.com for job hunters » [...] fizy.com for music [...]

Panorama non exhaustif.
  • Stanford University, "Library of Congress Subject Headings Galaxy.
Recherche de manière ludique. Une galaxie. Domaine de recherche associé à une planète etc...

Bilan de lecture.

En quelques mots: La place de l'informatique et du Web a pris une place prépondérante dans la vie du chercheur.

Les outils disponibles évoluent. Ils deviennent plus nombreux, plus spécialisés plus ergonomiques. Cependant, des progrès restent à faire pour rendre les bases de données plus performantes. (« relevant choices »).
La digitalisation de masse bouleverse les habitudes passées. Il faut savoir gérer les informations et adopter des techniques pour éviter le « overwhelming » si fréquemment cité dans ces textes.
Une autre idée émane de ce corpus: Google occupe une position centrale dans la sphère internet. Des satellites, sans cesse plus nombreux viennent graviter autour de lui. La concurrence est rude. Elle favorise une évolution constante. N'hésitez pas à corriger et apporter des précisions. jb

Aucun commentaire:

Enregistrer un commentaire