Eine kleine Zusammenfassung zu den Suchmaschinen Nutch und Red-Piranha. Die Analyse wurde in Bezug auf das zu entwickelnde System (Lucene eLecture) durchgeführt.
Nutch 0.7-dev
- Front-end für Root ausgelegt => falsche Links
- keine Unterstützung von PPT und PDF (momentan: HTML, MP3, MSWord, RTF, Plain-Text)
- PlugIn-Konzept
- Die Speicherung der benötigten Zusatzdaten wie (Seitennummer, Seitenüberschrift, etc) könnten durch Veränderung an den Plug-Ins erreicht werden
- PDF-PlugIn müsste demnächst für Nutch erhältlich sein
- Man müsste ein PPT (und ev. PDF-Plugin) erstellen
- Später dann ein Flash und Lecturnity-PlugIn
- Durch aktivieren von Listings auf dem File-Server wäre ein kompletter Scan möglich, ansonsten müsste man eine Datei mit URLs erstellen
- lokales crawling (direkt per Festplattenpfad) anscheinend nicht möglich, da Links zu den Resourcen benötigt werden
- Cache-Funktionalität (MD5-Hashing): Speichert ob URLs oder Dokumente seit der Indexerstellung verändert worden sind
- wurde auf sehr großen Datenmengen erfolgreich getestet
- Front-End: Visualisierung des Text-kontexts der Suchanfrage bei den Ergebnissen
Red Piranha 0.3
- Unterstützt PDF (Plain-Text, XML, HTML)
- PPT wird anscheinend Binär geparst, so wie alle anderen unbekannten Formate
- Ergebnisbewertungssystem bzw. Lernsystem (I like this, Not for me)
- Über "Add information" können Daten zum Index hinzugefügt werden, aber anscheinend nicht entfernt werden
- Crawling kann nicht abgebrochen werden
- Crawling benötigt nur für Info2-Slides (ca. 21,1 MB) 45 Minuten
- Index hat etwa 7% der Größe der indizierten Daten => bei 360 GB: Indexgröße: 25,2 GB
- Zugriff auf den Index während der Indexerstellung möglich
- Scheint den Index aktuell zu halten (Hintergrundprozess) --> Verwaltung großer Datenmengen möglich?
Beide Systeme (Nachteile)
- sind wohl eher für das crawlen von Internet-präsenzen ausgelegt, als für einen File-Server
- Änderungen im Programmcode unerläßlich um die geforderten Meta-Daten beim eLecture-Portal zu erhalten
- Abschneiden eines Pfadprefixes in den PlugIns (Bildung der URI)
- Bei nutch müssten momentan alle Dokumenttypen und bei Red Piranha Flash und Lecturnity implementiert werden
- Entsprechende Änderungen am Front-End
- eigene (zwar auf lucene basierte) Datenformate die für die entsprechenden Zusatzfeatures benötigt werden
- Dokumentationen spärlich Beide Systeme (Vorteile)
- die nutch-community würde sich über zusätzlich entwickelte PlugIns freuen.
- Ausweitung auf andere Dokumenttypen (die von den Systemen bereits unterstützt werden) ev. nicht sehr aufwendig
- Bei Verwendung von RP: Zusätzliches ev. nützliches Feature (Lernsystem) bereits integriert
- Bei Verwendung von Nutch: Cache-Feature