Οι κορυφαίες 7 ερωτήσεις συνέντευξης της Επιστήμης Δεδομένων –

Οι κορυφαίες 7 ερωτήσεις συνέντευξης της Επιστήμης Δεδομένων –

Oktober 1, 2022 0 Von admin

Αυτό το άρθρο δημοσιεύτηκε ως μέρος του Data Science Blogathon.

Εισαγωγή

Οι συνεντεύξεις εργασίας στην επιστήμη δεδομένων απαιτούν ιδιαίτερες ικανότητες. Οι υποψήφιοι που πετυχαίνουν να εργαστούν συχνά δεν είναι αυτοί με τις καλύτερες τεχνικές ικανότητες, αλλά εκείνοι που μπορούν να συνδυάσουν αυτές τις ικανότητες με την οξυδέρκεια της συνέντευξης.

Παρόλο που το πεδίο της επιστήμης δεδομένων είναι ποικίλο, μερικές συγκεκριμένες ερωτήσεις τίθενται συχνά σε συνεντεύξεις. Κατά συνέπεια, έχω συντάξει μια λίστα με τις επτά πιο τυπικές ερωτήσεις συνέντευξης της επιστήμης δεδομένων και τις απαντήσεις τους. Τώρα, ας βουτήξουμε αμέσως!

Ερωτήσεις & Απαντήσεις Συνέντευξης Επιστήμης Δεδομένων |  Γυάλινη πόρταΠηγή: Glassdooor

Ερωτήσεις και απαντήσεις

Ερώτηση 1: Ποιες υποθέσεις είναι απαραίτητες για τη γραμμική παλινδρόμηση; Τι συμβαίνει όταν παραβιάζονται ορισμένες από αυτές τις υποθέσεις;

Ένα μοντέλο γραμμικής παλινδρόμησης βασίζεται στις ακόλουθες τέσσερις παραδοχές:

Γραμμικότητα: Το Χ και ο μέσος όρος του Υ έχουν ευθεία σχέση.

Ομοσκεδαστικότητα: Η διακύμανση του υπολειπόμενου είναι η ίδια για κάθε τιμή του X.

Ανεξαρτησία: Οι παρατηρήσεις είναι αμοιβαία αποκλειόμενες η μία από την άλλη.

Κανονικότητα: Το Y κατανέμεται κανονικά για οποιαδήποτε σταθερή τιμή του X.

Οι ακραίες αποκλίσεις από αυτά τα τεκμήρια θα καταστήσουν τα αποτελέσματα περιττά. Μικρότερες αποκλίσεις από αυτές τις παραδοχές θα αυξήσουν τη μεροληψία ή τη διακύμανση της εκτίμησης.

Μικρότερες αποκλίσεις από αυτές τις παραδοχές θα αυξήσουν τη μεροληψία ή τη διακύμανση της εκτίμησης.

Ερώτηση 2: Τι σημαίνει συγγραμμικότητα; Τι είναι η πολυσυγγραμμικότητα; Πώς το αντιμετωπίζετε; Έχει αντίκτυπο στα δέντρα αποφάσεων;

Απάντηση: Συγγραμμικότητα: Μια γραμμική σχέση μεταξύ δύο προβλέψεων ονομάζεται συγγραμμικότητα.

Πολυσυγγραμμικότητα: Η πολυσυγγραμμικότητα αναφέρεται στη σχέση μεταξύ δύο ή περισσότερων προγνωστικών παραγόντων σε ένα μοντέλο παλινδρόμησης που σχετίζεται στενά γραμμικά.

Αυτό προκαλεί πρόκληση επειδή υπονομεύει τη στατιστική σημασία μιας ανεξάρτητης μεταβλητής. Αν και μπορεί να μην επηρεάζει πάντα σημαντικά την ακρίβεια του μοντέλου, επηρεάζει τη διακύμανση της πρόβλεψης. Μειώνει την ποιότητα της ερμηνείας των ανεξάρτητων μεταβλητών.

Ωστόσο, αν σας ενδιαφέρει μόνο να κάνετε προβλέψεις, δεν σας ενδιαφέρει αν υπάρχει συγγραμμικότητα. Ωστόσο, για να έχετε ένα πιο ερμηνεύσιμο μοντέλο, θα πρέπει να αποφύγετε χαρακτηριστικά με πολύ υψηλό (~R2 >.8) ποσοστό του περιεχομένου τους στα χαρακτηριστικά. Εναλλακτικά, μπορείτε επίσης να χρησιμοποιήσετε το Variance Inflation Factors (VIF) για να ελέγξετε εάν υπάρχει συγγραμμικότητα/πολυσυγγραμμικότητα μεταξύ ανεξάρτητων μεταβλητών. Ένα τυπικό σημείο αναφοράς είναι εάν το VIF είναι μεγαλύτερο από 5, τότε υπάρχει πολυσυγγραμμικότητα.

Έτσι, η συγγραμμικότητα/πολυσυγγραμμικότητα μας εμποδίζει να κατανοήσουμε πώς κάθε μεταβλητή επηρεάζει τα αποτελέσματα.

Παρακάτω είναι μια εικόνα ενός διασκορπισμού ενός δείγματος δεδομένων. Το διάγραμμα διασποράς ενός δείγματος δεδομένων φαίνεται στην παρακάτω εικόνα. Λάβετε υπόψη την ισχυρή συσχέτιση που υπάρχει μεταξύ Limit και Rating. Ως αποτέλεσμα, δεν μπορούμε να διακρίνουμε τους συντελεστές βήτα και από τα δύο, και υποδηλώνει πολυσυγγραμμικότητα.

συγγραμμικότητα

Εικόνα 1: Διάγραμμα διασποράς μεταβλητών (Πηγή| Μέσο)

Μπορούμε να συμπεράνουμε ότι η πολυσυγγραμμικότητα ή η συγγραμμικότητα δεν θα αλλάξει τα αποτελέσματα των προβλέψεων από τα δέντρα απόφασης, καθώς αυτά τα προβλήματα επηρεάζουν την ερμηνευτικότητα των μοντέλων ή την ικανότητα εξαγωγής συμπερασμάτων από τα αποτελέσματα. Ωστόσο, είναι σημαντικό να εξεταστεί ο τρόπος με τον οποίο κάθε χαρακτηριστικό μπορεί να επηρεαστεί από ένα άλλο κατά την εξαγωγή συμπερασμάτων από τα μοντέλα δέντρου αποφάσεων για να βοηθήσει στη λήψη διορατικών επιχειρηματικών αποφάσεων.

Ερώτηση 3: Πώς ακριβώς λειτουργεί το K-Nearest Neighbor;

Απάντηση: Το K-Nearest Neighbors είναι μια τεχνική μέσω της οποίας μπορούμε να ταξινομήσουμε πού ταξινομείται ένα νέο δείγμα κοιτάζοντας τα πλησιέστερα ταξινομημένα σημεία, εξ ου και η ονομασία ‚K-nearest.‘ Στο παράδειγμα που φαίνεται παρακάτω, εάν k=1, το μη ταξινομημένο σημείο ταξινομείται ως μπλε σημείο.

Ενδέχεται να προκύψουν ακραίες τιμές εάν η τιμή του k είναι πολύ μικρή. Εάν έχει οριστεί πολύ ψηλά, μπορεί να αγνοήσει τάξεις με λίγα μόνο δείγματα.

«Κ-πλησιέστερο

Εικόνα 2: Παράδειγμα που απεικονίζει το K-πλησιέστερο γείτονα (Πηγή| Μέσο)

Ερώτηση 4: Τι σημαίνει η λέξη «αφελής» στο Naive Bayes;

Απάντηση: Ο Naive Bayes είναι αφελής, καθώς κάνει αυτή την ισχυρή υπόθεση, καθώς τα χαρακτηριστικά θεωρείται ότι δεν συσχετίζονται μεταξύ τους, κάτι που συχνά δεν συμβαίνει ποτέ.

Ερώτηση 5: Πότε και γιατί θα επιλέγατε τυχαία δάση έναντι του SVM;

Απάντηση: Ένα τυχαίο δάσος είναι μια ανώτερη μέθοδος από μια μηχανή διανύσματος υποστήριξης για τους ακόλουθους λόγους:

  • Τα τυχαία δάση μας επιτρέπουν να προσδιορίσουμε τη σημασία του χαρακτηριστικού. Τα SVM δεν μπορούν να το επιτύχουν αυτό.
  • Ένα τυχαίο δάσος μπορεί να κατασκευαστεί πιο γρήγορα και εύκολα από ένα SVM.
  • Τα SVM απαιτούν μια προσέγγιση one-vs-rest για προβλήματα ταξινόμησης πολλών κατηγοριών, η οποία είναι λιγότερο επεκτάσιμη και δαπανηρή για τη μνήμη.

Ερώτηση 6: Τι διακρίνει ένα δέντρο με ενίσχυση κλίσης από ένα δέντρο AdaBoosted;

Απάντηση: Το AdaBoost είναι ένας ενισχυμένος αλγόριθμος παρόμοιος με το Random Forests, αλλά έχει μερικές βασικές διακρίσεις:

  1. Το AdaBoost δημιουργεί συχνά ένα δάσος από πρέμνα αντί για δέντρα (ένα κούτσουρο είναι ένα δέντρο με μόνο έναν κόμβο και δύο φύλλα).
  2. Η τελική απόφαση δεν ζυγίζει κάθε κούτσουρο εξίσου. Η μεγαλύτερη επιρροή θα πάει στα κολοβώματα με χαμηλότερο συνολικό σφάλμα και καλύτερη ακρίβεια.
  3. Η σειρά με την οποία κατασκευάζονται τα κολοβώματα είναι κρίσιμη γιατί κάθε επόμενο κολόβωμα υπογραμμίζει τη σημασία των δειγμάτων που το προηγούμενο κολόβωμα κατηγοριοποίησε εσφαλμένα.

Παρόμοια με το AdaBoost, το Gradient Boost κατασκευάζει πολλά δέντρα με βάση το προηγούμενο. Το Gradient Boost κατασκευάζει δέντρα με τυπικά 8 έως 32 φύλλα, σε αντίθεση με το AdaBoost, που κατασκευάζει κούτσουρα.

Πιο συγκεκριμένα, τα δέντρα επιλογής του Gradient είναι κατασκευασμένα διαφορετικά από αυτά του AdaBoost. Ξεκινώντας με μια αρχική πρόβλεψη – συνήθως ο μέσος όρος – είναι η βελτίωση της κλίσης. Το δέντρο απόφασης κατασκευάζεται στη συνέχεια χρησιμοποιώντας τα υπολείμματα του δείγματος. Η αρχική πρόβλεψη συν έναν ρυθμό εκμάθησης πολλαπλασιασμένος με το υπολειπόμενο δέντρο οδηγεί σε μια νέα πρόβλεψη, η οποία επαναλαμβάνεται.

Ερώτηση 7: Πώς λειτουργεί η αντιστάθμιση μεροληψίας-διακύμανσης;

Απάντηση: Η διαφορά μεταξύ των αληθών και των αναμενόμενων τιμών ενός εκτιμητή ονομάζεται προκατάληψη. Τα μοντέλα υψηλής προκατάληψης συχνά υπεραπλοποιούνται, γεγονός που οδηγεί σε υποκατάσταση. Η ευαισθησία του μοντέλου στα δεδομένα και τον θόρυβο αντιπροσωπεύεται από διακύμανση. Η υπερπροσαρμογή συμβαίνει με μοντέλα υψηλής διακύμανσης.

Ένα χαρακτηριστικό των μοντέλων μηχανικής μάθησης είναι η αντιστάθμιση μεροληψίας-διακύμανσης, όπου η χαμηλότερη διακύμανση οδηγεί σε αυξημένη μεροληψία και αντίστροφα. Συνήθως, μπορεί να βρεθεί μια ισορροπία μεταξύ των δύο που ελαχιστοποιεί τα λάθη.

πολυπλοκότητα μοντέλου

Εικόνα 3: Γράφημα που απεικονίζει αντιστάθμιση μεροληψίας-διακύμανσης (Πηγή|Μέσο)

συμπέρασμα

Σε αυτό το άρθρο, καλύψαμε επτά ερωτήσεις συνεντεύξεων της επιστήμης δεδομένων και τα ακόλουθα είναι τα βασικά συμπεράσματα:

1. Τέσσερις απαραίτητες υποθέσεις για το μοντέλο γραμμικής παλινδρόμησης περιλαμβάνουν: γραμμικότητα, ομοσκεδαστικότητα, ανεξαρτησία και κανονικότητα.

2. Μια γραμμική σχέση μεταξύ δύο προβλέψεων ονομάζεται συγγραμμικότητα και η Πολυσυγγραμμικότητα αναφέρεται στη σχέση μεταξύ δύο ή περισσότερων προγνωστικών σε ένα μοντέλο παλινδρόμησης που σχετίζεται στενά γραμμικά.

3. Το K-Nearest Neighbors είναι μια τεχνική μέσω της οποίας μπορούμε να ταξινομήσουμε πού ταξινομείται ένα νέο δείγμα κοιτάζοντας τα πλησιέστερα ταξινομημένα σημεία, εξ ου και το όνομα ‚K-nearest‘.

4. Ο αφελής Bayes είναι αφελής αφού κάνει αυτή την ισχυρή υπόθεση, καθώς τα χαρακτηριστικά θεωρείται ότι δεν συσχετίζονται μεταξύ τους, κάτι που συχνά δεν συμβαίνει ποτέ.

5. Ένα τυχαίο δάσος είναι μια ανώτερη μέθοδος από μια μηχανή διανυσμάτων υποστήριξης επειδή τα τυχαία δάση μας επιτρέπουν να προσδιορίσουμε τη σημασία του χαρακτηριστικού. Τα SVM δεν μπορούν να το επιτύχουν αυτό.

6. Η διαφορά μεταξύ των αληθών και των αναμενόμενων τιμών ενός εκτιμητή ονομάζεται προκατάληψη. Τα μοντέλα υψηλής προκατάληψης συχνά υπεραπλοποιούνται, γεγονός που οδηγεί σε υποκατάσταση. Η ευαισθησία του μοντέλου στα δεδομένα και τον θόρυβο αντιπροσωπεύεται από διακύμανση. Η υπερπροσαρμογή συμβαίνει με μοντέλα υψηλής διακύμανσης.

Τα μέσα που εμφανίζονται σε αυτό το άρθρο δεν ανήκουν στο Analytics Vidhya και χρησιμοποιούνται κατά την κρίση του συγγραφέα.