Δεν υπάρχει τίποτα χειρότερο από το να πρέπει να ψάξει κάνεις μια συγκεκριμένη φράση μέσα σε αρχεία PDF που έχουν “scan-αριστεί” σαν εικόνες. Τώρα όμως το Dropbox έρχεται να λύσει αυτό το πρόβλημα εισάγοντας στην cloud hosting υπηρεσία της ένα νέο αυτοματοποιημένο image recognition tool, που θα αναλύει αυτόματα τα κείμενα που υπάρχουν σε φωτογραφίες και PDF, και θα τα προσθέτει σαν αποτελέσματα στις αναζητήσεις των χρηστών. Σύμφωνα με το Dropbox, αυτή την στιγμή υπάρχουν περισσότερα από 20 δισεκατομμύρια PDF και φωτογραφιών.
Για να βρει την συγκεκριμένη έκφραση που θα ψάχνει ο χρήστης, το μόνο που θα έχει να κάνει θα είναι να την εισάγει στην μηχανή αναζήτησης αρχείων του Dropbox, όπως ακριβώς θα έκανε και σε οποιοδήποτε search engine. Έτσι το Dropbox θα φέρνει σαν αποτέλεσμα όλα τα PDF αρχεία που περιέχουν την συγκεκριμένη λέξη ή φράση. Η εταιρεία δήλωσε ότι αυτό το project είναι το πιο απαιτητικό εγχείρημα που έχει προσπαθήσει να υλοποιήσει μέχρι σήμερα το machine learning τμήμα της.
Τα προβλήματα που συνάντησαν ήταν αρκετά. Ένα από αυτά είναι ότι PDF αρχεία με πολλές σελίδες, αποσπούσαν πολλούς υπολογιστικούς πόρους του συστήματος για πολύ ώρα. Έτσι η ομάδα αποφάσισε να θέσει μια ρύθμιση, που το index του κάθε PDF εκτελείται μόνο για τις 10 πρώτες σελίδες του αρχείου.
Το αυτόματο image recognition θα μπορεί να αναγνωρίσει μόνο την αγγλική γλώσσα, από αρχεία τύπου JPEG, GIF, PNG, TIFF και PDF, που έχουν ανεβεί στο cloud storage του Dropbox. Η νέα υπηρεσία αναμένεται να κυκλοφορήσει σύντομα για τα εταιρικά πακέτα, αλλά δεν είναι γνωστό το ποτέ θα εφαρμοστεί στους απλούς χρήστες. Τέλος η indexing διαδικασία θα γίνει και σε παλιά αρχεία που έχουν ανεβεί στην υπηρεσία πριν την κυκλοφορία του νέου χαρακτηριστικού.