7 Ερωτήσεις που μπορείτε να περιμένετε στη συνέντευξη επιστήμης δεδομένων

7 Ερωτήσεις που μπορείτε να περιμένετε στη συνέντευξη επιστήμης δεδομένων

September 29, 2022 0 Von admin

Αυτό το άρθρο δημοσιεύτηκε ως μέρος του Data Science Blogathon.

Κατανόηση των Υπέροχων Συμπεριφορικών Ερωτήσεων Συνεντεύξεων |  DDI

Πηγή: DDI

Εισαγωγή

Οι συνεντεύξεις εργασίας για την επιστήμη δεδομένων απαιτούν ειδικές δεξιότητες. Οι υποψήφιοι που πετυχαίνουν να εργαστούν συχνά δεν είναι αυτοί με τις καλύτερες τεχνικές ικανότητες, αλλά εκείνοι που μπορούν να συνδυάσουν αυτές τις ικανότητες με την οξυδέρκεια της συνέντευξης.

Αν και η επιστήμη των δεδομένων είναι ευρεία, μερικές συγκεκριμένες ερωτήσεις εμφανίζονται συχνά στις συνεντεύξεις. Έχω δημιουργήσει μια λίστα με τις επτά πιο συνηθισμένες ερωτήσεις συνέντευξης για την επιστήμη δεδομένων

Ερωτήσεις Συνέντευξης Επιστήμης Δεδομένων

Ερώτηση 1: Πώς χειρίζεται το XGBoost την αντιστάθμιση μεροληψίας-διακύμανσης;

Απάντηση: Το XGBoost είναι μια ενισχυμένη έκδοση του bagging and boosting. Ως αποτέλεσμα, το XGBoost διαχειρίζεται την προκατάληψη και τη διακύμανση παρόμοια με οποιαδήποτε άλλη στρατηγική ενίσχυσης. Το Boosting είναι ένας μετα-αλγόριθμος συνόλου που παίρνει έναν σταθμισμένο μέσο όρο διαφορετικών αδύναμων μοντέλων για να μειώσει την προκατάληψη και τη διακύμανση. Το σφάλμα (και επομένως η μεροληψία) μειώνεται με την εστίαση σε αδύναμες προβλέψεις και την επανάληψη μέσω μοντέλων. Το τελικό μοντέλο έχει επίσης χαμηλότερη διακύμανση από τα ασθενέστερα μοντέλα ξεχωριστά, επειδή είναι ο σταθμισμένος μέσος όρος πολλών αδύναμων μοντέλων.

Ερώτηση 2: Πρέπει να χρησιμοποιήσετε πολλαπλά μοντέλα παλινδρόμησης για να δημιουργήσετε ένα μοντέλο πρόβλεψης. Περιγράψτε πώς σκοπεύετε να επικυρώσετε αυτό το μοντέλο.

Απάντηση: Υπάρχουν δύο βασικές μέθοδοι για να γίνει αυτό:

ΕΝΑ) Προσαρμοσμένο τετράγωνο R: Το Adjusted R-Squared είναι ένα στατιστικό που δείχνει πόσο από τη διακύμανση στις ανεξάρτητες μεταβλητές μπορεί να ληφθεί υπόψη από τη διακύμανση στην εξαρτημένη μεταβλητή. Στην ουσία, το R-squared δείχνει τη διασπορά γύρω από τη γραμμή της καλύτερης προσαρμογής, ενώ οι συντελεστές υπολογίζουν τις τάσεις.

Ένα μοντέλο με πολλές ανεξάρτητες μεταβλητές μπορεί να φαίνεται ότι ταιριάζει καλύτερα στα δεδομένα, παρόλο που δεν ταιριάζει, καθώς κάθε επιπλέον ανεξάρτητη μεταβλητή ενισχύει την τιμή του R-squared του μοντέλου. Εδώ, διορθώθηκε ο R2 μπαίνει στην εικόνα. Κάθε επιπλέον ανεξάρτητη μεταβλητή θεωρείται από το τροποποιημένο R2, το οποίο αυξάνεται μόνο εάν το μοντέλο βελτιωθεί πέρα ​​από τα όρια της πιθανότητας. Δεδομένου ότι χτίζουμε ένα μοντέλο πολλαπλής παλινδρόμησης, αυτό είναι σημαντικό.

Β) Διασταυρούμενη επικύρωση: Μια κοινή προσέγγιση χωρίζει τα δεδομένα σε δεδομένα εκπαίδευσης, επικύρωσης και δοκιμών.

Ερώτηση 3: Τι διακρίνει τη μαζική μάθηση από τη διαδικτυακή μάθηση;

Όταν ένα μοντέλο μαθαίνει σε ομάδες προτύπων, αυτή η διαδικασία ονομάζεται μάθηση κατά παρτίδες ή μάθηση εκτός σύνδεσης. Οι περισσότεροι άνθρωποι είναι εξοικειωμένοι με αυτό το είδος μάθησης, όπου συγκεντρώνετε ένα σύνολο δεδομένων και δημιουργείτε ένα μοντέλο χρησιμοποιώντας ολόκληρο το σύνολο δεδομένων με μία κίνηση.

Από την άλλη πλευρά, η διαδικτυακή μάθηση χρησιμοποιεί μια προσέγγιση που απορροφά δεδομένα μία παρατήρηση τη φορά. Η διαδικτυακή μάθηση είναι αποδοτική ως προς τα δεδομένα, καθώς, θεωρητικά, δεν χρειάζεται να διατηρείτε τα δεδομένα σας, επειδή δεν είναι πλέον απαραίτητα μετά τη χρήση τους.

Ερώτηση 4: Προτείνετε μερικές στρατηγικές για το χειρισμό μηδενικών τιμών.

Απάντηση: Υπάρχουν διάφορες μέθοδοι για την αντιμετώπιση μηδενικών τιμών, συμπεριλαμβανομένων αυτών που αναφέρονται παρακάτω:

– Μπορείτε να παραλείψετε εντελώς σειρές που περιέχουν μηδενικές τιμές.

– Μέτρα κεντρικής τάσης (μέσος όρος, διάμεσος και τρόπος λειτουργίας) ή μια νέα κατηγορία (όπως „Καμία“ μπορούν να χρησιμοποιηθούν για την αντικατάσταση μηδενικών τιμών).

– Με βάση άλλους παράγοντες, μπορείτε να προβλέψετε τις μηδενικές τιμές. Για παράδειγμα, εάν μια σειρά έχει τιμή ύψους αλλά όχι τιμή βάρους, μπορείτε να αντικαταστήσετε την τιμή ύψους με το μέσο βάρος για αυτό το ύψος.

– Τέλος, εάν χρησιμοποιείτε ένα μοντέλο μηχανικής εκμάθησης που χειρίζεται αυτόματα μηδενικές τιμές, μπορείτε να αφήσετε τις μηδενικές τιμές.

Ερώτηση 5: Είναι σκόπιμο να καταλογιστούν μέσες τιμές για δεδομένα που λείπουν; Ναί ή όχι.

Απάντηση: Ο μέσος καταλογισμός αντικαθιστά τον μέσο όρο του συνόλου δεδομένων για τυχόν μηδενικές τιμές.

Δεδομένου ότι αγνοεί τη συσχέτιση χαρακτηριστικών, ο καταλογισμός μέσου όρου συχνά δεν είναι καλή ιδέα. Σκεφτείτε έναν πίνακα όπου αναφέρονται η βαθμολογία ηλικίας και φυσικής κατάστασης και λείπει η βαθμολογία φυσικής κατάστασης για ένα άτομο ηλικίας 80 ετών. Ο ογδόνταχρονος θα φαίνεται να έχει σημαντικά μεγαλύτερη βαθμολογία φυσικής κατάστασης από ό,τι θα έπρεπε, εάν χρησιμοποιηθεί ο μέσος όρος βαθμολογίας φυσικής κατάστασης για μια σειρά ηλικιών από 15 έως 80.

Δεύτερον, ο μέσος καταλογισμός αυξάνει την προκατάληψη στα δεδομένα μας και μειώνει τη διακύμανση στα δεδομένα. Μια μειωμένη διακύμανση έχει ως αποτέλεσμα ένα λιγότερο ακριβές μοντέλο και ένα μικρότερο διάστημα εμπιστοσύνης.

Ερώτηση 6: Πώς εντοπίζετε ακραίες τιμές;

Απάντηση: Υπάρχουν διάφορες μέθοδοι για τον εντοπισμό των ακραίων τιμών, όπως:

Βαθμολογία Z/τυπικές αποκλίσεις: Εάν γνωρίζουμε ότι το 99,7% των δεδομένων σε ένα σύνολο δεδομένων εμπίπτει σε τρεις τυπικές αποκλίσεις, μπορούμε να προσδιορίσουμε το μέγεθος μιας τυπικής απόκλισης, να το πολλαπλασιάσουμε επί τρία και, στη συνέχεια, να εντοπίσουμε τα σημεία δεδομένων που βρίσκονται εκτός αυτού του εύρους. Ομοίως, εάν η υπολογιζόμενη βαθμολογία z ενός συγκεκριμένου σημείου είναι μεγαλύτερη ή ίση με +/- 3, είναι ακραία τιμή.

Θα πρέπει να σημειωθεί ότι αυτή η μέθοδος έχει ορισμένους περιορισμούς, συμπεριλαμβανομένης της απαίτησης κανονικής διανομής των δεδομένων, του γεγονότος ότι δεν μπορεί να χρησιμοποιηθεί για μικροσκοπικά σύνολα δεδομένων και της πιθανότητας η ύπαρξη πάρα πολλών ακραίων τιμών να προκαλέσει τη βαθμολογία z. να είναι ανακριβής.

Διατεταρτημόριο Εύρος (IQR): Το IQR, η ιδέα πίσω από την κατασκευή boxplot, μπορεί επίσης να χρησιμοποιηθεί για τον εντοπισμό ακραίων τιμών. Το IQR είναι ίσο με το χάσμα μεταξύ του πρώτου και του τρίτου τεταρτημορίου. Εάν ένα σημείο είναι μεγαλύτερο από Q3 + 1,5*IQR ή μικρότερο από Q1-1,5*IRQ, μπορείτε να προσδιορίσετε αν είναι ακραίο. Η τυπική απόκλιση που προκύπτει είναι περίπου 2.698.

Άλλες μέθοδοι περιλαμβάνουν δάση απομόνωσης, ισχυρά δάση τυχαίας περικοπής και ομαδοποίηση DBScan.

Ερώτηση 7: Είναι σκόπιμο να καταλογιστούν μέσες τιμές για δεδομένα που λείπουν; Γιατί ή γιατί όχι?

Απάντηση: Η διαδικασία αντικατάστασης του μέσου όρου του συνόλου δεδομένων για τυχόν μηδενικές τιμές ονομάζεται μέσος καταλογισμός.

Ο καταλογισμός μέσου όρου δεν είναι συνήθως καλή ιδέα επειδή δεν λαμβάνει υπόψη τη συσχέτιση χαρακτηριστικών. Για παράδειγμα, ας υποθέσουμε ότι έχουμε έναν πίνακα όπου αναγράφονται η βαθμολογία ηλικίας και φυσικής κατάστασης και λείπει η βαθμολογία φυσικής κατάστασης για ένα άτομο που είναι 80 ετών. Ο ογδόνταχρονος θα φαίνεται να έχει αξιοσημείωτα μεγαλύτερη βαθμολογία φυσικής κατάστασης από ό,τι θα έπρεπε, εάν χρησιμοποιηθεί ο μέσος όρος βαθμολογίας φυσικής κατάστασης για μια σειρά ηλικιών από 15 έως 80.

Ως αποτέλεσμα του μέσου καταλογισμού, τα δεδομένα μας έχουν υψηλότερη προκατάληψη και μικρότερη διακύμανση. Κατά συνέπεια, το μοντέλο είναι λιγότερο ακριβές και το διάστημα εμπιστοσύνης είναι μικρότερο.

συμπέρασμα

Σε αυτό το άρθρο, καλύψαμε επτά ερωτήσεις συνεντεύξεων της επιστήμης δεδομένων και τα ακόλουθα είναι τα βασικά συμπεράσματα:

  • Το XGBoost είναι μια ενισχυμένη έκδοση του bagging and boosting. Ως αποτέλεσμα, το XGBoost διαχειρίζεται την προκατάληψη και τη διακύμανση όπως κάθε άλλη στρατηγική ενίσχυσης. Από την άλλη πλευρά, η ενίσχυση είναι ένας μετα-αλγόριθμος συνόλου που παίρνει έναν σταθμισμένο μέσο όρο διαφορετικών αδύναμων μοντέλων για να μειώσει την προκατάληψη και τη διακύμανση.
  • Το προσαρμοσμένο τετράγωνο R και η διασταυρούμενη επικύρωση μπορούν να χρησιμοποιηθούν για την επικύρωση ενός μοντέλου πρόβλεψης που δημιουργήθηκε χρησιμοποιώντας μοντέλα πολλαπλής παλινδρόμησης.
  • Όταν ένα μοντέλο μαθαίνει σε ομάδες προτύπων, αυτή η διαδικασία ονομάζεται μάθηση κατά παρτίδες ή μάθηση εκτός σύνδεσης. Από την άλλη πλευρά, η διαδικτυακή μάθηση χρησιμοποιεί μια προσέγγιση που απορροφά δεδομένα μία παρατήρηση τη φορά.
  • Οι αποκλίσεις βαθμολογίας Z/τυπικές αποκλίσεις και το Διατεταρτημόριο Εύρος (IQR) μπορούν να χρησιμοποιηθούν για να ελεγχθεί εάν υπάρχουν ακραίες τιμές.

Διαβάστε περισσότερα άρθρα σχετικά με ερωτήσεις συνέντευξης Data Science εδώ.

Τα μέσα που εμφανίζονται σε αυτό το άρθρο δεν ανήκουν στο Analytics Vidhya και χρησιμοποιούνται κατά την κρίση του συγγραφέα.