| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • Social distancing? Try a better way to work remotely on your online files. Dokkio, a new product from PBworks, can help your team find, organize, and collaborate on your Drive, Gmail, Dropbox, Box, and Slack files. Sign up for free.

View
 

Hoe diep is het Web vj2006

Page history last edited by PBworks 13 years, 7 months ago


 

Wat is het diepe of onzichtbare Web?

Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties: Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web enige honderden malen groter dan het geindexeerde Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie niet vindbaar omdat het onderdeel is van dit diepe web.

 

Schattingen naar de omvang van twee databases laten dit ook zien:

SiteGoogleYahooMSN
Worldcat433.0003.500.000964
Pubmed9.260.000863.00098.272

 

De belangrijkste oorzaken voor het bestaan van het diepe web zou je als volgt kunnen samenvatten:

  • Zoekmachine limiteringen
  • Pagina's scoren laag in de resultaten (limiteringen van zoekers)
  • De informatie zit in databases

 

Zoekmachine limiteringen

  • Sites zijn te ingewikkeld of te groot
  • Files zijn te groot (limieten verschuiven wel, maar deze zijn er nog steeds).
  • Informatie zit in niet geindexeerde file types (ZIP, TAR etc..)
  • Informatie zit in grafische, multimediale bestanden of Flash.
  • De robots.txt staat indexeren niet toe
  • Informatie wisselt te snel (beurskoersen, nieuws of blogs)
  • Sites zitten op intranetten, of hebben passwords nodig

 

Pagina's scoren laag in de resultaten

De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

 

Informatie zit in databases

Spiders van zoekmachines kunnen niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam of jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd, maar daarna stopt het.

 

Database paradox

Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd. Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976

Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines.

 

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een viertal methodes.

  • Speciale directories gebruiken.
  • Databases zoeken op plaatsen waar ze te verwachten zijn.
  • Speciale 'diep Web' zoekmachines gebruiken.
  • Reguliere zoekmachines gebruiken om

Comments (0)

You don't have permission to comment on this page.