MarcosBL

Aprendiz de todo, maestro de nada

Larbin – Araña web de amplio espectro

aranhaSi como a mi os ha dado de último por emular a la gran G, y os ha picado el gusanillo de indexar Internet para fines experimentales, os gustará conocer a Larbin.

Larbin es un recopilador web (tambien llamado (web) robot, araña, spider, scooter…) especializado y optimizado para velocidad. Su fin es el de descargar y almacenar enormes cantidades de páginas web para rellenar la base de datos de un hipotético motor de búsqueda (no indexa, ojo, sólo descarga, tienes que procesar los datos tu mismo a posteriori). Con una red rápida, es capaz de extraer 100 millones de páginas en un PC doméstico.

Su uso no es apto para novatos, requiere ajustes en el código fuente y recompilaciones para poder llegar a aprovechar su funcionalidad, pero es lo más parecido a una araña profesional, open source y de alto rendimiento que jamás me haya encontrado.

1 comentarios en “Larbin – Araña web de amplio espectro

Comments are closed.