Μάθετε Python για Επιστήμη Δεδομένων

Μάθετε Python για Επιστήμη Δεδομένων

März 10, 2023 0 Von admin

Η Python είναι ένα από τα, αν όχι ο, τις πιο βασικές γλώσσες Επιστήμης Δεδομένων. Είναι αρκετά εύκολο στην εκμάθησή του, είναι δωρεάν, πολλές εταιρείες το χρησιμοποιούν και διαθέτει πολλές ισχυρές βιβλιοθήκες στατιστικών και οπτικοποίησης δεδομένων. Με μια φράση: αν ψάχνετε για μια καριέρα στο Data Science, αργά ή γρήγορα θα πρέπει να μάθετε Python.

Οπότε συγκέντρωσα ένα Python για Επιστήμη Δεδομένων σειρές σεμιναρίων ξεκινώντας από τα πολύ βασικά. Από όσο γνωρίζω, αυτό είναι ένα από τα λίγα σεμινάρια Python στο διαδίκτυο που είναι:

  • στην Python 3 και όχι στην Python 2 (δείτε γιατί είναι σημαντικό παρακάτω)
  • γραμμένο για όσους μόλις ξεκινούν με την κωδικοποίηση
  • ξεκίνησε από τα βασικά, στη συνέχεια σας καθοδηγεί σε προηγμένα πράγματα, όπως η χρήση των πάντα και άλλων βιβλιοθηκών αναλυτικής επιστήμης δεδομένων
  • 100% αφιερωμένο στο να είναι πρακτικό
  • και δωρεάν…

Εδώ είναι τα άρθρα!

Σημείωση: Γράφω συνεχώς νέα άρθρα και τα προσθέτω στη λίστα.

Χρειάζεστε πρώτα ένα δωρεάν φύλλο εξαπάτησης Python;

Εξώφυλλο φύλλου cheat python για την επιστήμη δεδομένων

Αποκτήστε το στην ενότητα ΔΩΡΕΑΝ ΥΛΙΚΑ. Εδώ.

Βασικά στοιχεία Python (10 άρθρα)

1) Εγκαταστήστε Python, SQL, R και Bash (για μη προγραμματιστές)

Το πρώτο βήμα θα είναι να δημιουργήσετε το δικό σας περιβάλλον Python. Αυτό το άρθρο θα σας δείξει πώς να το κάνετε αυτό. Επιπλέον, ως έξτρα, αν προχωρήσετε σε όλη τη διαδικασία, θα έχετε και bash, SQL και R. Η εγκατάσταση συνοδεύεται από τις περίφημες επεκτάσεις iPython και Jupyter Notebook Python που θα κάνουν τη ζωή σας στην κωδικοποίηση δεδομένων πολύ πιο εύκολη! ΔΙΑΒΑΣΤΕ>>

2) Βασικά στοιχεία Python: το περιβάλλον, οι μεταβλητές Python και οι τύποι δεδομένων

Σας παρουσιάζω το Σημειωματάριο Jupyter, τον αγαπημένο σας διαδραστικό χώρο εργασίας Python. Μετά από αυτό, εξετάζουμε τα βασικά της Python: μεταβλητές και τύπους δεδομένων (ακέραιοι, συμβολοσειρές, booleans, κ.λπ.). Στο τέλος του επεισοδίου θα βρείτε και μια γρήγορη άσκηση! ΔΙΑΒΑΣΤΕ>>

3) Δομές δεδομένων Python

Το επόμενο άρθρο αφορά τις πιο σημαντικές δομές δεδομένων στην Python: λίστες, λεξικά και πλειάδες. Θα μάθετε πώς να τα δημιουργείτε και να τα τροποποιείτε – και επίσης πώς να έχετε πρόσβαση ή να ενημερώνετε τα στοιχεία τους. ΔΙΑΒΑΣΤΕ>>

4) Ενσωματωμένες Λειτουργίες και Μέθοδοι Python

Οι συναρτήσεις και οι μέθοδοι είναι ένα από τα μεγαλύτερα πλεονεκτήματα της Python. Χρησιμοποιώντας τα, μπορείτε να πραγματοποιήσετε απλές αλλά σημαντικές διεργασίες δεδομένων (όπως η μέτρηση του αριθμού των στοιχείων, ο υπολογισμός του αθροίσματος των ακεραίων, η δημιουργία συμβολοσειρών με κεφαλαία ή πεζά, και ούτω καθεξής…). Σε αυτό το άρθρο, παρουσιάζω την όλη ιδέα και σας δίνω μια λίστα με τις πιο βασικές ενσωματωμένες λειτουργίες και μεθόδους της Python. ΔΙΑΒΑΣΤΕ>>

5) Δηλώσεις Python if

Ας επιστρέψουμε στην κωδικοποίηση! Στο επόμενο κεφάλαιο παρουσιάζονται οι δηλώσεις if. Μπορείτε να μάθετε για τη λογική της εντολής Python if – καθώς και για τη σύνταξη και τις προηγμένες εφαρμογές. ΔΙΑΒΑΣΤΕ>>

6) Python για βρόχους

Οι βρόχοι For στην Python είναι ιδανικοί για την επεξεργασία επαναλαμβανόμενων εργασιών προγραμματισμού. Σε αυτό το άρθρο, θα σας δείξω όλα όσα πρέπει να γνωρίζετε για αυτά: τη σύνταξη, τη λογική, τις προηγμένες εφαρμογές και τις βέλτιστες πρακτικές επίσης! ΔΙΑΒΑΣΤΕ>>

7) Python For Loops και If Combined Statements

Τώρα που ξέρετε πώς λειτουργούν οι δηλώσεις και οι βρόχοι for, ήρθε η ώρα να τις συνδυάσετε. Θα σας δείξω πώς να δημιουργήσετε ένθετους βρόχους για, να βάλετε εντολές if εντός βρόχων για και στο τέλος του άρθρου θα σας δώσω μια ενδιάμεση εργασία Python για να δοκιμάσετε τις δεξιότητες που έχετε συγκεντρώσει μέχρι τώρα. ΔΙΑΒΑΣΤΕ>>

8) Python Syntax Essentials και Best Practices

Στα εργαστήρια Python και τα διαδικτυακά μου μαθήματα βλέπω ότι ένα από τα πιο δύσκολα πράγματα για τους νεοφερμένους είναι η ίδια η σύνταξη. Είναι πολύ αυστηρό και πολλά πράγματα μπορεί να φαίνονται ασυνεπή στην αρχή. Σε αυτό το άρθρο έχω συλλέξει τα βασικά στοιχεία σύνταξης της Python που πρέπει να έχετε κατά νου ως επαγγελματίας δεδομένων — και πρόσθεσα μερικές βέλτιστες πρακτικές μορφοποίησης, για να σας βοηθήσω να διατηρήσετε τον κώδικά σας ωραίο και καθαρό. ΔΙΑΒΑΣΤΕ>>

9) Δήλωση εισαγωγής Python και οι πιο σημαντικές ενσωματωμένες ενότητες για επιστήμονες δεδομένων

Μέχρι στιγμής έχουμε δουλέψει με τις πιο βασικές έννοιες της Python: μεταβλητές, δομές δεδομένων, ενσωματωμένες συναρτήσεις και μεθόδους, βρόχους και εντολές if. Όλα αυτά είναι μέρη της βασικής σημασιολογίας της γλώσσας. Αλλά αυτό απέχει πολύ από όλα όσα γνωρίζει η Python. Στην πραγματικότητα αυτό είναι μόνο η αρχή και τα συναρπαστικά πράγματα δεν έχουν έρθει ακόμη. Επειδή η Python έχει επίσης τόνους λειτουργιών και πακέτων που μπορούμε να εισάγουμε στα έργα μας… ΔΙΑΒΑΣΤΕ>>

10) Οι 5 πιο σημαντικές βιβλιοθήκες και πακέτα Python για Επιστήμονες Δεδομένων

Σε αυτό το άρθρο, θα παρουσιάσω τις πέντε πιο σημαντικές βιβλιοθήκες και πακέτα επιστήμης δεδομένων που το κάνουν δεν έρχονται με Python από προεπιλογή. Αυτά είναι: Numpy, Pandas, Matplotlib, Scikit-Learn και Scipy. Στο τέλος του άρθρου, θα σας δείξω επίσης πώς να τα αποκτήσετε (κατεβάσετε, εγκαταστήσετε και εισαγάγετε). ΔΙΑΒΑΣΤΕ>>

Pandas Basics: Data Wrangling και Visualization with Python/pandas (5 άρθρα)

11) Pandas Tutorial 1: Pandas Basics (Ανάγνωση αρχείων δεδομένων, Data Frames, Επιλογή δεδομένων)

Το Pandas είναι μια από τις πιο δημοφιλείς βιβλιοθήκες Python για την Επιστήμη των Δεδομένων και το Analytics. Μου αρέσει να λέω ότι είναι η „SQL της Python“. Γιατί; Επειδή τα pandas σας βοηθούν να διαχειριστείτε πίνακες δεδομένων δύο διαστάσεων στην Python. Φυσικά, έχει πολλά περισσότερα χαρακτηριστικά. Σε αυτό το επεισόδιο θα ξεκινήσουμε με τα βασικά των πάντα! ΔΙΑΒΑΣΤΕ>>

12) Pandas Tutorial 2: Aggregation and Grouping

Θα εισαγάγω τη συγκέντρωση (όπως ελάχ., μέγ., άθροισμα, μέτρηση κ.λπ.) και ομαδοποίηση σε panda. Και οι δύο είναι πολύ συχνά χρησιμοποιούμενες μέθοδοι σε έργα ανάλυσης και επιστήμης δεδομένων. ΔΙΑΒΑΣΤΕ>>

13) Οδηγός Pandas 3: Σημαντικές μέθοδοι μορφοποίησης δεδομένων (συγχώνευση, ταξινόμηση, reset_index, fillna)

Στο 3ο επεισόδιο του φροντιστηρίου pandas, θα σας δείξω τέσσερις μεθόδους μορφοποίησης δεδομένων που μπορεί να χρησιμοποιήσετε πολύ σε έργα επιστήμης δεδομένων. Αυτά είναι: συγχώνευση, είδος, επαναφορά_ευρετηρίου και αφή! ΔΙΑΒΑΣΤΕ>>

14) Pandast Tutorial 4: Πώς να σχεδιάσετε ένα ιστόγραμμα χρησιμοποιώντας Pandas

Το 4ο επεισόδιο της σειράς φροντιστηρίων pandas αφορά την οπτικοποίηση δεδομένων. Σας δείχνω πώς μπορείτε να δημιουργήσετε ένα ιστόγραμμα χρησιμοποιώντας panda και matplotlib. Και ως εισαγωγή, θα σας δείξω επίσης πώς μπορείτε να σχεδιάσετε ένα γράφημα γραμμών και ένα γράφημα ράβδων, επίσης. ΔΙΑΒΑΣΤΕ>>

15) Εκμάθηση Pandas 5: Πώς να σχεδιάσετε μια γραφική παράσταση Scatter χρησιμοποιώντας Pandas

Και δεν θα μπορούσα να χάσω από αυτά τα άρθρα ένα από τα αγαπημένα γραφήματα των επιστημόνων δεδομένων: το διάγραμμα διασποράς. Είναι ένας πολύ καλός τρόπος για να ανακαλύψετε και να εμφανίσετε συσχετίσεις μεταξύ δύο ή περισσότερων μεταβλητών σε ένα σύνολο δεδομένων. Σε αυτό το επεισόδιο, θα δείξω πώς μπορείτε να δημιουργήσετε το πρώτο σας σχέδιο διασποράς χρησιμοποιώντας panda και matplotlib. ΔΙΑΒΑΣΤΕ>>

Μηχανική μάθηση με Python, pandas, numpy και scikit-learn (6 άρθρα)

16) Γραμμική παλινδρόμηση στην Python (το πιο βασικό μοντέλο μηχανικής μάθησης)

Τα Panda και η Python είναι πολύ δημοφιλή για μηχανική μάθηση. Η μηχανική μάθηση είναι μόνο το ~5% της δουλειάς για κατώτερους επιστήμονες δεδομένων. Ανεξάρτητα από αυτό, ήθελα να σας δώσω μια σύντομη εισαγωγή στο πιο βασικό μοντέλο μηχανικής εκμάθησης: τη γραμμική παλινδρόμηση. Εδώ, θα μάθετε τα στατιστικά στοιχεία πίσω από αυτό, πώς λειτουργεί — και φυσικά, πώς να το κάνετε σε Python και Pandas… ή καλά, σε αυτήν την περίπτωση χρησιμοποιώντας το numpy. ΔΙΑΒΑΣΤΕ>>

17) Πολυωνυμική παλινδρόμηση σε Python με χρήση scikit-learn

Πολλές φορές θα συναντήσετε δεδομένα όπου η σχέση μεταξύ των χαρακτηριστικών και της μεταβλητής απόκρισης δεν μπορεί να περιγραφεί καλύτερα με μια ευθεία γραμμή. Άρα η γραμμική παλινδρόμηση δεν θα είναι αρκετή. Για να καμπυλώσετε τις γραμμές σας, ακολουθεί ένα άλλο ευρέως χρησιμοποιούμενο – και πιο ευέλικτο – μοντέλο μηχανικής εκμάθησης: Πολυωνυμική παλινδρόμηση. Ας δούμε πώς να το εφαρμόσουμε με Python, panda και scikit-learn. ΔΙΑΒΑΣΤΕ>>

18) Κωδικοποίηση ενός δέντρου αποφάσεων σε Python με χρήση Scikit-learn, Μέρος #1: Δέντρα παλινδρόμησης

Η ταξινόμηση είναι μια σημαντική εργασία όταν φτάνει στη Μηχανική Εκμάθηση. Και η κατασκευή ενός μοντέλου δέντρου αποφάσεων είναι το πιο εύκολο πρώτο βήμα για να κατανοήσουμε αυτόν τον κόσμο. (Επίσης τα θεμέλια των πιο περίπλοκων και καλύτερων μοντέλων όπως το τυχαίο δάσος.) Η δημιουργία ενός μοντέλου δέντρου αποφάσεων στην Python δεν είναι τόσο δύσκολη όσο φαίνεται. Η διαδικασία εκμάθησης ξεκινά με την κατανόηση του τι είναι ένα δέντρο παλινδρόμησης και πώς μπορείτε να το δημιουργήσετε. Αυτό το άρθρο θα σας δείξει τα πάντα: τη σύντομη θεωρία και μετά τον κώδικα σε Python + pandas + scikit. ΔΙΑΒΑΣΤΕ>>

19) Κωδικοποίηση ενός δέντρου αποφάσεων σε Python με χρήση Scikit-learn, Μέρος #2: Ταξινόμηση δέντρων και ακαθαρσία Gini

Ακολουθώντας το προηγούμενο σεμινάριο, σε αυτό, θα μάθετε για την έννοια πίσω από τα δέντρα ταξινόμησης και το Gini Impurity… Και φυσικά για το πώς να τα εφαρμόσετε όλα αυτά με Python + pandas + scikit-learn. Συνδυάζοντας τις γνώσεις από το προηγούμενο άρθρο του δέντρου παλινδρόμησης και σχηματίζοντας αυτό, θα μπορέσετε να δημιουργήσετε πλήρως λειτουργικά μοντέλα δέντρων αποφάσεων! ΔΙΑΒΑΣΤΕ>>

20) Random Forest σε Python (και κωδικοποίηση του με Scikit-learn)

Το Random Forest είναι ένα από τα πιο δημοφιλή μοντέλα ταξινόμησης. Δεν είναι τυχαίο: είναι εύκολο να το εφαρμόσεις και αποδίδει πολύ καλά. Το όνομα είναι πολύ περιγραφικό: ένα τυχαίο δάσος είναι ένα σωρό διαφορετικά δέντρα απόφασης που ξεπερνούν την υπερβολική προσαρμογή. Περισσότερα για την ιδέα και την εφαρμογή της σε Python/pandas/scikit στο άρθρο. ΔΙΑΒΑΣΤΕ>>

21) K-means Clustering με scikit-learn (σε Python)

Η ομαδοποίηση K-means είναι ένα από τα πιο δημοφιλή και ευκολονόητα μοντέλα μηχανικής εκμάθησης χωρίς επίβλεψη. Αυτό το άρθρο θα σας δείξει τη διαφορά μεταξύ εποπτευόμενης και μη εποπτευόμενης ML. Θα σας διδάξει τα βασικά του clusterin. και θα σας καθοδηγήσει στην υλοποίηση ενός μοντέλου ομαδοποίησης K-means με Python + scikit. ΔΙΑΒΑΣΤΕ>>


Αυτό είναι ένα άρθρο που επεκτείνεται συνεχώς. Ελέγχετε λοιπόν από καιρό σε καιρό!

Ρίξτε μια ματιά και στα μαθήματα SQL και bash!

Στην υγειά σας,
Master Tommy