Η Webhose.io, είναι μια εταιρεία που παρέχει direct access σε live data από εκατοντάδες χιλιάδες forums, news και blogs, και η οποία postαρε άρθρο που περιγράφει ένα μικροσκοπικό, multi -threaded web crawler, γραμμένο σε python. Αυτός ο Ρythοn web crawler είναι ικανός να ψάξει ολόκληρο το web για σας.
Ο Ran Geva, ο συντάκτης αυτού του μικροσκοπικού python web crawler αναφέρει πως:
“Έγραψα γι’ αυτό πως μπορεί και κατεβάζει χιλιάδες σελίδες από multiple pages σε λίγες μόνο ώρες. Δεν απαιτείται κανένα set up, ούτε external imports, απλά να τρέξετε τον ακόλουθο Ρythοn code με ένα ‘seed site’ και να κάτσετε αναπαυτικά στην καρέκλα σας (ή απλά να κάνετε κάποια άλλη δουλειά, επειδή θα πάρει μερικές ώρες, ή και μέρες, – εξαρτάται από τον όγκο των δεδομένων που χρειάζεστε).
https://www.secnews.gr/
Ο Ρythοn based multi-threaded crawler είναι αρκετά απλός και πολύ γρήγορος. Είναι ικανός να εντοπίζει και να εξολοθρεύει duplicate links και να κάνει save και την πηγή και το link, κάτι το οποίο μπορείτε να χρησιμοποιήσετε στην συνέχεια για να βρείτε inbound / outbound links για τον υπολογισμό του page rank.
Είναι εντελώς δωρεάν και ο κώδικας είναι αυτός που βλέπετε παρακάτω:
Εισάγετε τον παραπάνω κώδικα με ένα όνομα σαν αυτό πχ “myΡythοnCrawler.py”.
Για να ξεκινήσετε το crawling απλά πληκτρολογήστε:
[alert variation=”alert-success”]$ python myΡythοnCrawler.py https://www.secnews.gr[/alert]
Στην συνέχεια καθίστε αναπαυτικά στο κάθισμά σας και απολαύστε τον python web crawler σας.
https://www.secnews.gr/101029/the-first-person-hack-body/Δείτε ακόμα: Γνωρίστε τον πρώτο άνθρωπο που Hack αρε το σώμα του για να …..
Βρήκατε το άρθρο ενδιαφέρον? Περιμένουμε τα σχόλιά σας παρακάτω!