Η Google χρησιμοποιεί το MLPerf για να επιδείξει την απόδοση σε γιγάντια έκδοση του BERT

2 Δεκεμβρίου 2021, 15:07

Η Google εκμεταλλεύεται τους competitors MLPerf για να επιδείξει τη γενική απόδοση στη γιγάντια παραλλαγή του προϊόντος της γλώσσας BERT (Bidirectional Encoder Representations from Transformers είναι μια τεχνική μηχανικής εκμάθησης που βασίζεται σε μετασχηματιστές για προεκπαίδευση επεξεργασίας φυσικής γλώσσας που αναπτύχθηκε από την Google).

Ο deep learning κόσμος της τεχνητής νοημοσύνης (artificial intelligence) έχει εμμονή με το μέγεθος.

Τα προγράμματα deep learning, όπως το GPT-3 του OpenAI, συνεχίζουν να χρησιμοποιούν όλο και περισσότερα τσιπ GPU από την Nvidia και την AMD για τη δημιουργία ολοένα και μεγαλύτερων προγραμμάτων λογισμικού. Η ακρίβεια των προγραμμάτων αυξάνεται με το μέγεθος, υποστηρίζουν οι ερευνητές.

Δείτε επίσης: Google search: Κόλπα που κάνουν πιο εύκολες τις αναζητήσεις σας

SecNewsTV

23.1K subscribers

Περισσότερα... Subscribe!

Αυτή η εμμονή με το μέγεθος εμφανίστηκε αναλυτικά την Τετάρτη στα πιο πρόσφατα αποτελέσματα αναφοράς του κλάδου που αναφέρθηκαν από το MLCommons (παγκόσμιος και ανοικτός μη κερδοσκοπικός οργανισμός αφιερωμένος στη βελτίωση της μηχανικής μάθησης για όλους), που θέτει τα πρότυπα για τη μέτρηση του πόσο γρήγορα τα τσιπ υπολογιστών μπορούν να σπάσουν τον κώδικα deep learning.

Η Google αποφάσισε να μην κάνει submit σε κανένα τυπικό τεστ αναφοράς deep learning, το οποίο αποτελείται από προγράμματα που είναι καθιερωμένα στον τομέα, αλλά σχετικά ξεπερασμένα. Αντίθετα, οι μηχανικοί της Google παρουσίασαν μια έκδοση του προγράμματος φυσικής γλώσσας BERT της Google, την οποία κανένας άλλος προμηθευτής δεν χρησιμοποίησε.

Το MLPerf, η σουίτα αναφοράς που χρησιμοποιείται για τη μέτρηση της απόδοσης στον ανταγωνισμό, αναφέρει αποτελέσματα για δύο τμήματα: το τυπικό τμήμα “Closed”, όπου οι περισσότεροι προμηθευτές ανταγωνίζονται σε καθιερωμένα δίκτυα όπως το ResNet-50 και το τμήμα “Open”, το οποίο επιτρέπει στους πωλητές να δοκιμάσουν μη τυπικές προσεγγίσεις.

Δείτε επίσης: Google: Οι cryptocurrency miners χακάρουν λογαριασμούς Cloud

Στο τμήμα Open η Google έδειξε έναν υπολογιστή που χρησιμοποιεί 2.048 τσιπ TPU της Google, έκδοση 4. Αυτό το μηχάνημα μπόρεσε να αναπτύξει το πρόγραμμα BERT σε περίπου 19 ώρες.

Το πρόγραμμα BERT, ένα νευρωνικό δίκτυο με 481 δισεκατομμύρια παραμέτρους, δεν είχε αποκαλυφθεί στο παρελθόν. Είναι πάνω από τρεις τάξεις μεγέθους μεγαλύτερο από την τυπική έκδοση του BERT που κυκλοφορεί, γνωστή ως “BERT Large”, η οποία έχει μόλις 340 εκατομμύρια παραμέτρους. Η ύπαρξη πολλών περισσότερων παραμέτρων απαιτεί συνήθως πολύ μεγαλύτερη υπολογιστική ισχύ.

Η Google είπε ότι η νέα υποβολή αντικατοπτρίζει την αυξανόμενη σημασία της κλίμακας στην τεχνητή νοημοσύνη.

Η σουίτα δοκιμών MLPerf είναι δημιουργία του MLCommons, μιας κοινοπραξίας του κλάδου που εκδίδει πολλαπλές ετήσιες αξιολογήσεις συγκριτικής αξιολόγησης υπολογιστών για τα δύο μέρη της μηχανικής μάθησης: τη λεγόμενη εκπαίδευση, όπου ένα νευρωνικό δίκτυο δημιουργείται με τη βελτίωση των ρυθμίσεών του σε πολλαπλά πειράματα και το λεγόμενο συμπέρασμα, όπου το ολοκληρωμένο νευρωνικό δίκτυο κάνει προβλέψεις καθώς λαμβάνει νέα δεδομένα.

Ο απολογισμός της Τετάρτης είναι το τελευταίο τεστ αναφοράς για την προπονητική φάση. Ακολουθεί την προηγούμενη έκθεση του Ιουνίου.

Τα πλήρη αποτελέσματα του MLPerf συζητήθηκαν σε ένα δελτίο τύπου στον ιστότοπο MLCommons. Τα πλήρη στοιχεία για τις υποβολές μπορείτε να τα δείτε σε πίνακες που αναρτώνται στον ιστότοπο.

Ο Selvan της Google είπε ότι το MLCommons θα πρέπει να εξετάσει το ενδεχόμενο να συμπεριλάβει περισσότερα μεγάλα μοντέλα. Τα παλαιότερα, μικρότερα δίκτυα όπως το ResNet-50 «μας δίνουν μόνο έναν proxy» για μεγάλης κλίμακας απόδοση εκπαίδευσης, είπε.

Το στοιχείο που λείπει, είπε ο Selvan, είναι η λεγόμενη αποτελεσματικότητα των συστημάτων καθώς μεγαλώνουν. Η Google κατάφερε να εκτελέσει το γιγάντιο μοντέλο BERT της με 63% απόδοση, είπε στο ZDNet, όπως μετρήθηκε με τον αριθμό των πράξεων κινητής υποδιαστολής ανά δευτερόλεπτο που εκτελούνται σε σχέση με μια θεωρητική χωρητικότητα. Αυτό, είπε, ήταν καλύτερο από το επόμενο υψηλότερο αποτέλεσμα του κλάδου, 52%, που πέτυχε η Nvidia κατά την ανάπτυξη του μοντέλου γλώσσας Megatron-Turing που αναπτύχθηκε με τη Microsoft.

Ο David Kanter, εκτελεστικός διευθυντής του MLCommons, είπε ότι η απόφαση για μεγάλα μοντέλα θα πρέπει να αφεθεί στα μέλη των Commons να αποφασίσουν συλλογικά. Επισήμανε, ωστόσο, ότι η χρήση μικρών νευρωνικών δικτύων ως δοκιμών καθιστά τον διαγωνισμό προσβάσιμο σε περισσότερα μέρη.

Δείτε επίσης: Πώς να ανεβάσετε αρχεία και φακέλους στο Google Drive;

Αντίθετα, οι τυπικές δοκιμές του MLPerf, του οποίου ο κώδικας είναι διαθέσιμος σε όλους, είναι ένας πόρος που μπορεί να αξιοποιήσει κάθε ερευνητής τεχνητής νοημοσύνης για να επαναλάβει τα τεστ, είπε ο Kanter.

Η Google δεν σκοπεύει να δημοσιεύσει το νέο μοντέλο BERT, είπε ο Selvan στο ZDNet σε ένα email, περιγράφοντάς το ως “κάτι που κάναμε μόνο για το MLPerf”. Το πρόγραμμα είναι παρόμοιο με τα σχέδια που περιγράφηκαν σε έρευνα της Google νωρίτερα αυτό το έτος σε εξαιρετικά παραλληλισμένα νευρωνικά δίκτυα, είπε ο Selvan.

Παρά την καινοτομία του προγράμματος BERT 481 δισεκατομμυρίων παραμέτρων, είναι αντιπροσωπευτικό των εργασιών του πραγματικού κόσμου, επειδή βασίζεται σε κώδικα πραγματικού κόσμου.

Πηγή πληροφοριών: zdnet.com

Ακολουθήστε μας στο Google News και ενημερωθείτε πρώτοι για όλες τις ειδήσεις.