Wat is het diepe of onzichtbare Web?
Niet alle documentaire informatie is direct vindbaar. In 2001 waren er twee publicaties: Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web enige honderden malen groter dan het geindexeerde Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie niet vindbaar omdat het onderdeel is van dit diepe web.
Schattingen naar de omvang van twee databases laten dit ook zien:
Site | Google | Yahoo | MSN |
Worldcat | 433.000 | 3.500.000 | 964 |
Pubmed | 9.260.000 | 863.000 | 98.272 |
De belangrijkste oorzaken voor het bestaan van het diepe web zou je als volgt kunnen samenvatten:
- Zoekmachine limiteringen
- Pagina's scoren laag in de resultaten (limiteringen van zoekers)
- De informatie zit in databases
Zoekmachine limiteringen
- Sites zijn te ingewikkeld of te groot
- Files zijn te groot (limieten verschuiven wel, maar deze zijn er nog steeds).
- Informatie zit in niet geindexeerde file types (ZIP, TAR etc..)
- Informatie zit in grafische, multimediale bestanden of Flash.
- De robots.txt staat indexeren niet toe
- Informatie wisselt te snel (beurskoersen, nieuws of blogs)
- Sites zitten op intranetten, of hebben passwords nodig
Pagina's scoren laag in de resultaten
De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools
Informatie zit in databases
Spiders van zoekmachines kunnen niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam of jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd, maar daarna stopt het.
Database paradox
Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd. Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976
Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines.
Oplossingen
Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een viertal methodes.
- Speciale directories gebruiken.
- Databases zoeken op plaatsen waar ze te verwachten zijn.
- Speciale 'diep Web' zoekmachines gebruiken.
- Reguliere zoekmachines gebruiken om
Comments (0)
You don't have permission to comment on this page.