Διερευνητική Ανάλυση Δεδομένων (EDA) στο σύνολο δεδομένων βαθμολογίας υποψήφιων πελατών –

Διερευνητική Ανάλυση Δεδομένων (EDA) στο σύνολο δεδομένων βαθμολογίας υποψήφιων πελατών –

Oktober 1, 2022 0 Von admin

Εισαγωγή

Ο δυνητικός πελάτης σε μια επιχείρηση, γνωστός και ως δυνητικός πελάτης πωλήσεων, είναι ένας χρήστης ή ένας πιθανός πελάτης που έχει δείξει ενδιαφέρον για αυτό που έχει να προσφέρει η εταιρεία σας. Οι δυνητικοί πελάτες γενικά συλλαμβάνονται παρακολουθώντας τις ενέργειες των χρηστών, όπως πόσο επισκέπτονται τον ιστότοπο, ζητώντας τους να συμπληρώσουν ορισμένες φόρμες κ.λπ.

Στη συνέχεια, οι δυνητικοί πελάτες χρησιμοποιούνται από τα άτομα στην ομάδα πωλήσεων και μάρκετινγκ της εταιρείας για να στοχεύσουν το κοινό με μεγαλύτερη πιθανότητα μετατροπής σε πώληση. Για να είναι αποτελεσματική η ομάδα πωλήσεων και μάρκετινγκ, οι δυνητικοί πελάτες θα πρέπει να βαθμολογούνται έτσι ώστε να μπορούν εύκολα να ταξινομηθούν από υψηλότερη πιθανότητα σε χαμηλότερη πιθανότητα μετατροπής. Όλη αυτή η διαδικασία ονομάζεται βαθμολόγηση οδηγού.

Τώρα, ας μιλήσουμε για την Εξερευνητική Ανάλυση Δεδομένων (EDA). Αποτελεί αναπόσπαστο μέρος οποιουδήποτε έργου Μηχανικής Μάθησης και Επιστήμης Δεδομένων, καθώς κατά την εκτέλεση του EDA, μπορεί κανείς να μάθει για τα δεδομένα και να βγάλει συμπεράσματα/διορατικά από αυτά. Κανένα μοντέλο μηχανικής εκμάθησης δεν είναι ολοκληρωμένο χωρίς την κατάλληλη EDA, καθώς βοηθά στην εξαγωγή & διαγραφή χαρακτηριστικών και αποφασίζει τον καλύτερο αλγόριθμο για την ανάπτυξη του μοντέλου.

Σε αυτό το άρθρο, θα εκτελέσουμε Διερευνητική Ανάλυση Δεδομένων μόνο σε ένα σύνολο δεδομένων βαθμολογίας δυνητικών πελατών, το οποίο θα σας βοηθήσει να κατανοήσετε πώς να προχωρήσετε με ένα τέτοιο σύνολο δεδομένων, καθώς η βαθμολογία δυνητικού πελάτη είναι μια ευρέως διαδεδομένη πρακτική σε εταιρείες που βασίζονται σε προϊόντα ή υπηρεσίες.

Τι είναι η Διερευνητική Ανάλυση Δεδομένων;

Η Exploratory Data Analysis ή EDA είναι ένα σημαντικό μέρος οποιουδήποτε έργου Data Science ή Data Analysis. Η φιλοσοφία πίσω από το EDA είναι να εξετάζουμε και να μαθαίνουμε για τα δεδομένα πριν κατασκευάσουμε οποιοδήποτε μοντέλο. Διερευνά το σύνολο δεδομένων για να ανακαλύψει ανωμαλίες (ακραίες τιμές), μοτίβα και σχέσεις και σχηματίζει υποθέσεις με βάση την κατανόηση του δεδομένου συνόλου δεδομένων. Γενικά ταξινομείται σε δύο μεθόδους, δηλαδή, γραφική ανάλυση και μη γραφική ανάλυση.

Τα ακόλουθα πράγματα αποτελούν μέρος του EDA:

  • Λάβετε μέγιστες πληροφορίες από το σύνολο δεδομένων
  • Αποκαλύψτε την υποκείμενη δομή
  • Εξαγωγή σημαντικών χαρακτηριστικών από το σύνολο δεδομένων
  • Ανίχνευση ακραίων σημείων και ανωμαλιών (εάν υπάρχουν)
  • Υποθέσεις δοκιμής

Το EDA είναι απαραίτητο γιατί είναι καλή πρακτική να κατανοείτε τη δήλωση προβλήματος και τις διάφορες σχέσεις μεταξύ των λειτουργιών δεδομένων πριν λερώσετε τα χέρια σας.

Γιατί είναι σημαντικό το EDA για ένα έργο ML;

Το EDA διευκολύνει την κατανόηση της δομής του συνόλου δεδομένων, διευκολύνοντας τη μοντελοποίηση δεδομένων. Ο πρωταρχικός στόχος του EDA είναι να καταστήσει τα δεδομένα «καθαρά», υπονοώντας ότι δεν θα πρέπει να υπάρχουν ανωμαλίες, ακραίες τιμές και απολύσεις. Βοηθά στον εντοπισμό των εσφαλμένων σημείων δεδομένων, ώστε να μπορούν να αφαιρεθούν εύκολα από το σύνολο δεδομένων.

Τεχνικά, το πρωταρχικό κίνητρο της EDA είναι:

  • Εξετάστε τη διανομή δεδομένων
  • Χειρισμός χαμένων τιμών και ακραίων τιμών
  • Αφαίρεση διπλότυπων δεδομένων
  • Κωδικοποίηση των κατηγορικών μεταβλητών
  • Κανονικοποίηση και κλιμάκωση

Σας δίνει μια σαφή εικόνα των χαρακτηριστικών και των σχέσεών τους. Παροχή οδηγιών για βασικά χαρακτηριστικά, κατάργηση μη βασικών λειτουργιών και διασφαλίζοντας την ορθότητα και την αποτελεσματικότητα των δεδομένων που χρησιμοποιούνται.

Υπόθεση μελέτη On Exploratory Data Analysis

Δήλωση προβλήματος:

Πρέπει να εκτελέσουμε EDA πάνω από το δεδομένο σύνολο δεδομένων βαθμολογίας δυνητικών πελατών και να βγάλουμε όσο το δυνατόν περισσότερα συμπεράσματα.

Επεξήγηση συνόλου δεδομένων:

Το σύνολο δεδομένων μπορεί να βρεθεί σε αυτό Σύνδεσμος.

Το αρχικό σύνολο δεδομένων περιέχει συνολικά 37 στήλες και 9240 σειρές. Αλλά για να διατηρήσουμε αυτό το άρθρο σύντομο και ενημερωτικό, θα εξετάσουμε μόνο τις πιο σημαντικές στήλες/δυνατότητες, τις οποίες εξήγα μετά την εκτέλεση EDA στα αρχικά δεδομένα. Εάν θέλετε, μπορείτε επίσης να εργαστείτε στο αρχικό σύνολο δεδομένων!

Περιγραφή όλων των στηλών που εξετάστηκαν για αυτό το άρθρο:

Μεταβλητές Περιγραφή
Αναγνωριστικό προοπτικής Ένα μοναδικό αναγνωριστικό με το οποίο αναγνωρίζεται ο πελάτης.
Μόλυβδος καταγωγής Το αναγνωριστικό προέλευσης με το οποίο ο πελάτης προσδιορίστηκε ως δυνητικός πελάτης. Περιλαμβάνει API, Υποβολή σελίδας προορισμού κ.λπ.
Πηγή μολύβδου Η πηγή του μολύβδου. Περιλαμβάνει Google, Οργανική Αναζήτηση, Olark Chat κ.λπ.
Εχει μετατραπεί Η μεταβλητή στόχος. Υποδεικνύει εάν ένας υποψήφιος πελάτης έχει μετατραπεί επιτυχώς ή όχι.
Χρόνος που δαπανάται στον ιστότοπο Ο συνολικός χρόνος που αφιερώνει ο πελάτης στον ιστότοπο.
Τελευταία Δραστηριότητα Τελευταία δραστηριότητα που πραγματοποιήθηκε από τον πελάτη. Περιλαμβάνει Opened Email, Olark Chat Conversation κ.λπ.
Ειδίκευση Ο κλάδος στον οποίο ο πελάτης εργαζόταν πριν. Περιλαμβάνει το επίπεδο «Επιλογή εξειδίκευσης», που σημαίνει ότι ο πελάτης δεν είχε επιλέξει αυτήν την επιλογή κατά τη συμπλήρωση της φόρμας.
Ποια είναι η τωρινή σου απασχόληση Υποδεικνύει εάν ο πελάτης είναι φοιτητής, άνεργος ή μισθωτός.
Πόλη Η πόλη του πελάτη.

Μπορείτε να βρείτε το αρχικό Λεξικό Δεδομένων εδώ.

Προετοιμασία Δεδομένων:

Τώρα, μπορούμε να ξεκινήσουμε με την πρακτική εφαρμογή.

Καθώς το σύνολο δεδομένων είναι μεγάλο, δεν θα επενδύσουμε πολύ χρόνο στην προετοιμασία δεδομένων. Θα επικεντρωθούμε περισσότερο στο μέρος του EDA, δηλαδή στο να κάνουμε πληροφορίες.

Τώρα θα εισαγάγουμε όλες τις απαιτούμενες βιβλιοθήκες και το σύνολο δεδομένων.

# Supress warnings
import warnings
warnings.filterwarnings("ignore")

# Importing Libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Visualization
from matplotlib.pyplot import xticks
%matplotlib inline
# Data display customization
pd.set_option('display.max_rows', 20)
pd.set_option('display.max_columns', 100)
pd.options.display.max_rows = 100
# Loading Dataset
data = pd.read_csv('Leads.csv')
# List of all the columns, to be dropped from the original data:
drop_list = ['How did you hear about X Education', 

             'Lead Profile','Asymmetrique Activity Index',

             'Asymmetrique Activity Score',

             'Asymmetrique Profile Index',

             'Asymmetrique Profile Score',

             'Lead Number',

             'What matters most to you in choosing a course',

             'Search',

             'Magazine',

             'Newspaper Article',

             'X Education Forums',

             'Newspaper',

             'Digital Advertisement',

             'Through Recommendations',

             'Receive More Updates About Our Courses',

             'Update me on Supply Chain Content',

             'Get updates on DM Content',

             'I agree to pay the amount through cheque',

             'A free copy of Mastering The Interview',
             'Country']# Απόθεση των στηλών δεδομένων = data.drop(drop_list, axis=1) print(data.head())

Έλεγχος εάν το σύνολο δεδομένων έχει διπλότυπες τιμές ή όχι:

sum(data.duplicated(subset="Prospect ID")) == 0

Η έξοδος του παραπάνω κώδικα είναι Αληθής; ως εκ τούτου, εκεί δεν υπάρχουν διπλότυπες σειρές στο σύνολο δεδομένων.

ΣΗΜΕΙΩΣΗ: Υπάρχουν πολλές τιμές „Επιλογή“ για πολλές στήλες, καθώς ο πελάτης δεν επέλεξε καμία επιλογή από τη δεδομένη λίστα κατά τη συμπλήρωση της φόρμας. Αυτές οι τιμές «Επιλογή» είναι τόσο καλές όσο το NULL, επομένως πρέπει να τις αντικαταστήσουμε με NaN.

data = data.replace('Select', np.nan)

Ας ελέγξουμε πόσες μηδενικές τιμές υπάρχουν στο σύνολο δεδομένων:

data.isna().sum()
Διερευνητική Ανάλυση Δεδομένων

Θα αντικαταστήσουμε τις τιμές NaN στις στήλες τύπου δεδομένων int64/float64 με το μέσο όρο της στήλης και τις στήλες στις στήλες τύπου αντικειμένου με τη λειτουργία της στήλης. Μπορείτε να αντιμετωπίσετε τις μηδενικές τιμές πολύ καλύτερα, αλλά για αυτό το άρθρο, ακολουθούμε τον απλούστερο τρόπο για να τις αντιμετωπίσετε.

for col in data.columns:
    if data[col].dtypes == 'int64' or data[col].dtypes == 'float64':
        data[col].fillna(data[col].mean(), inplace=True)
    else:
        data[col].fillna(data[col].mode()[0], inplace=True)

Έτσι, τώρα τελειώσαμε με την προετοιμασία δεδομένων, μπορούμε να ξεκινήσουμε την EDA.

Διερευνητική Ανάλυση Δεδομένων (EDA):

1. Μετατράπηκε

# Converted is the target variable, Indicating whether a lead has been successfully converted (1) or not (0).
data['Converted'].value_counts()
Εξερευνητική Ανάλυση Δεδομένων CONVERTED
# here we check, how much converison has happened
converted = round(sum(data['Converted']) / len(data['Converted'])*100, 2)
print(converted,'%')
# Output: 38.54 %

2. Μόλυβδος Προέλευσης

# we check the value counts in Lead Origin
data['Lead Origin'].value_counts()
προέλευσης μολύβδου
# we drop the value with 1 occurence
data.drop(data.index[data['Lead Origin'] == 'Quick Add Form'], inplace=True)
# we plot the value counts with respect to the target variable
fig, axs = plt.subplots(figsize = (15,7.5))
sns.countplot(x = "Lead Origin", hue = "Converted", data = data, order = data['Lead Origin'].value_counts().index)
xticks(rotation = 45)
plt.show()
Διερευνητική Ανάλυση Δεδομένων
# here we calculate the conversion ratio for each value in Lead Origin
d = {}
for val in data['Lead Origin'].unique():
    a = data[data['Lead Origin'] == val]['Converted'].sum()
    b = data[data['Lead Origin']==val]['Converted'].count()
    d[val] = [a, b, round(a/b*100, 2)]
pd.DataFrame.from_dict(d, orient="index").rename(columns = {0: 'Converted', 1: 'Leads',2: 'Conversion Ratio'}).sort_values(by=['Conversion Ratio'], ascending=False)
προέλευσης μολύβδου

ΣΥΜΠΕΡΑΣΜΑ:

  • Ο μέγιστος αριθμός δυνητικών πελατών προήλθε από την „Υποβολή σελίδας προορισμού“, αλλά το ποσοστό μετατροπής ήταν χαμηλό, δηλαδή 36,19%.
  • Η „Φόρμα προσθήκης δυνητικών πελατών“ ήταν η καλύτερη απόδοση προέλευσης δυνητικών πελατών με 92,48% μετατροπή %.

3. Πηγή μολύβδου

data['Lead Source'].value_counts()
πηγή μολύβδου
# there are 5 "google", we can replace it with "Google"
# we can see there are a lot of values with very less occurences
# we can replace all of then with "Others"

data['Lead Source'] = data['Lead Source'].replace(['google'], 'Google')
data['Lead Source'] = data['Lead Source'].replace(['Click2call',
'Live Chat',
                                                   'NC_EDM',
                                                   'Pay per Click Ads',
                                                   'Press_Release',
                                                   'Social Media',
                                                   'WeLearn',
                                                   'bing',
                                                   'blog',
                                                   'testone',
                                                   'welearnblog_Home',
                                                   'youtubechannel'], 'Others')
# plotting count plot w.r.t target variable
sns.countplot(x = "Lead Source", hue = "Converted", data = data, order = data['Lead Source'].value_counts().index)
xticks(rotation = 45)
plt.show()
πηγή μολύβδου
# conversion ratio
d = {}
for val in data['Lead Source'].unique():
    a = data[data['Lead Source'] == val]['Converted'].sum()
    b = data[data['Lead Source']==val]['Converted'].count()
    d[val] = [a, b, round(a/b*100, 2)]
pd.DataFrame.from_dict(d, orient="index").rename(columns = {0: 'Converted', 1: 'Leads',2: 'Conversion Ratio'}).sort_values(by=['Conversion Ratio'], ascending=False)
Διερευνητική Ανάλυση Δεδομένων

ΣΥΜΠΕΡΑΣΜΑ:

  • Η πηγή με τον μέγιστο αριθμό δυνητικών πελατών είναι „Google“ και „Άμεση επισκεψιμότητα“, αλλά έχει λιγότερες μετατροπές.
  • Οι „Ιστότοπος Welingak“ και „Αναφορά“ ήταν οι Πηγές Δυναμικού με την καλύτερη απόδοση με 98,59% και 91,76% μετατροπές, αντίστοιχα.

4. Συνολικός χρόνος που δαπανάται στον ιστότοπο

data['Total Time Spent on Website'].describe()
χρόνος που αφιερώνεται στον ιστότοπο
# plotting boxplot and histogram
fig, axs = plt.subplots(1,2,figsize = (20,6.5))
sns.boxplot(data['Total Time Spent on Website'], ax = axs[0])
data['Total Time Spent on Website'].plot.hist(bins=20, ax = axs[1])
plt.show()
Διερευνητική Ανάλυση Δεδομένων
# plotting boxplot w.r.t. the target variable
sns.boxplot(y = 'Total Time Spent on Website', x = 'Converted', data = data)
plt.show()
Διερευνητική Ανάλυση Δεδομένων

ΣΥΜΠΕΡΑΣΜΑ:

  • Δεν υπάρχουν ακραίες τιμές στα δεδομένα.
  • Η στήλη είναι Δεξιά λοξή.
  • Οι υποψήφιοι πελάτες με περισσότερο χρόνο στον ιστότοπο είναι πιο πιθανό να μετατραπούν.

5. Τελευταία δραστηριότητα

data['Last Activity'].value_counts()
τελευταία δραστηριότητα
# Let's keep considerable last activities as such and club all others to "Other_Activity"
data['Last Activity'] = data['Last Activity'].replace(['Had a Phone Conversation',
                                                       'View in browser link Clicked', 
                                                       'Visited Booth in Tradeshow',
                                                       'Approached upfront',
                                                       'Resubscribed to emails',
                                                       'Email Received',
                                                       'Email Marked Spam'], 'Other_Activity')
# plotting the counplot w.r.t. the target variable
fig, axs = plt.subplots(figsize = (15,5))
sns.countplot(x = "Last Activity", hue = "Converted", data = data, order = data['Last Activity'].value_counts().index)
xticks(rotation = 90)
plt.show()
Διερευνητική Ανάλυση Δεδομένων
# conversion ratio
d = {}
for val in data['Last Activity'].unique():
    a = data[data['Last Activity'] == val]['Converted'].sum()
    b = data[data['Last Activity']==val]['Converted'].count()
    d[val] = [a, b, round(a/b*100, 2)]
pd.DataFrame.from_dict(d, orient="index").rename(columns = {0: 'Converted', 1: 'Leads',2: 'Conversion Ratio'}).sort_values(by=['Conversion Ratio'], ascending=False)
μετατροπή

ΣΥΜΠΕΡΑΣΜΑ:

  • Το „Email Άνοιξε“ και το „SMS Sent“ ήταν οι τελευταίες δραστηριότητες που δημιούργησαν τον μέγιστο αριθμό δυνητικών πελατών και ήταν επίσης καλές σε αναλογία μετατροπής.
  • Το „SMS Sent“ ήταν η τελευταία δραστηριότητα με την καλύτερη απόδοση με αναλογία μετατροπής 62,91%.

6. Εξειδίκευση

data['Specialization'].value_counts()
ειδίκευση
# plotting the countplot w.r.t. the target variable
fig, axs = plt.subplots(figsize = (15,5))

sns.countplot(x = "Specialization", hue = "Converted", data = data, order = data['Specialization'].value_counts().index)

xticks(rotation = 90)

plt.show()
Διερευνητική Ανάλυση Δεδομένων
# conversion ratio
d = {}
for val in data['Specialization'].unique():
    a = data[data['Specialization'] == val]['Converted'].sum()
    b = data[data['Specialization']==val]['Converted'].count()
    d[val] = [a, b, round(a/b*100, 2)]
pd.DataFrame.from_dict(d, orient="index").rename(columns = {0: 'Converted', 1: 'Leads',2: 'Conversion Ratio'}).sort_values(by=['Conversion Ratio'], ascending=False)
Διερευνητική Ανάλυση Δεδομένων

ΣΥΜΠΕΡΑΣΜΑ:

  • Η «Διαχείριση Οικονομικών» δημιούργησε τον μέγιστο αριθμό δυνητικών πελατών, αλλά η αναλογία μετατροπής ήταν μόλις 32,25%.
  • Η «Διαχείριση Υγείας» ήταν η εξειδίκευση με τις καλύτερες επιδόσεις με αναλογία μετατροπής 49,69%.

7. Ποιο είναι το σημερινό σας επάγγελμα

data['What is your current occupation'].value_counts()
Η κατάληψη της ΕΔΑ θα τρέξει
# plotting the countplot w.r.t. the target variable
fig, axs = plt.subplots(figsize = (15,5))
sns.countplot(x = "What is your current occupation", hue = "Converted", data = data, order = data['What is your current occupation'].value_counts().index)
xticks(rotation = 90)
plt.show()
Διερευνητική Ανάλυση Δεδομένων
# converison ratio
d = {}
for val in data['What is your current occupation'].unique():
    a = data[data['What is your current occupation'] == val]['Converted'].sum()
    b = data[data['What is your current occupation']==val]['Converted'].count()
    d[val] = [a, b, round(a/b*100, 2)]
pd.DataFrame.from_dict(d, orient="index").rename(columns = {0: 'Converted', 1: 'Leads',2: 'Conversion Ratio'}).sort_values(by=['Conversion Ratio'], ascending=False)
ΕΔΑ

ΣΥΜΠΕΡΑΣΜΑ:

  • Το επάγγελμα „Άνεργοι“ δημιούργησε τον μέγιστο αριθμό δυνητικών πελατών, αλλά είχε τη μικρότερη αναλογία μετατροπής.
  • Το επάγγελμα „Εργαζόμενος Επαγγελματίας“ ήταν το επάγγελμα με τις καλύτερες επιδόσεις με αναλογία μετατροπής 91,64%, το επάγγελμα „Νοικοκυρά“ είχε αναλογία μετατροπής 100%, αλλά δεν το εξετάζουμε λόγω λιγότερων σημείων δεδομένων.

8. Πόλη

data['City'].value_counts()
ΕΔΑ
# plotting the countplot w.r.t. the target variable
fig, axs = plt.subplots(figsize = (15,5))
sns.countplot(x = "City", hue = "Converted", data = data, order = data['City'].value_counts().index)
xticks(rotation = 90)
plt.show()
ΕΔΑ
# conversion ratio
d = {}
for val in data['City'].unique():
    a = data[data['City'] == val]['Converted'].sum()
    b = data[data['City']==val]['Converted'].count()
    d[val] = [a, b, round(a/b*100, 2)]
pd.DataFrame.from_dict(d, orient="index").rename(columns = {0: 'Converted', 1: 'Leads',2: 'Conversion Ratio'}).sort_values(by=['Conversion Ratio'], ascending=False)
Διερευνητική Ανάλυση Δεδομένων

ΣΥΜΠΕΡΑΣΜΑ:

  • Το „Mumbai“ δημιούργησε τον μέγιστο αριθμό δυνητικών πελατών, αλλά η αναλογία μετατροπής ήταν μόλις 32,24%.
  • Όλες οι πόλεις έχουν σχεδόν την ίδια αναλογία μετατροπής, b/w 33% προς 44

συμπέρασμα

Σε αυτό το άρθρο, κατανοήσαμε την έννοια της Διερευνητικής Ανάλυσης Δεδομένων (EDA) και γιατί είναι απαραίτητη σε έργα ML με τη βοήθεια μιας μελέτης περίπτωσης. Εξετάσαμε πώς θα μπορούσαμε να αναλύσουμε το σύνολο δεδομένων και να βγάλουμε συμπεράσματα από αυτό. Μερικά από τα βασικά στοιχεία από τα άρθρα είναι:

  • Κατανόηση του τι είναι δυνητικοί πελάτες, πώς είναι χρήσιμοι για μια εταιρεία, τι είναι η βαθμολογία δυνητικών πελατών και η EDA & γιατί η EDA πραγματοποιείται πριν από οποιοδήποτε έργο ML.
  • Κατανόηση ενός συνόλου βαθμολογίας δυνητικών πελατών από το kaggle, που περιέχει 37 στήλες και 9240 σειρές. Το σύνολο δεδομένων προέρχεται από μια εταιρεία εκπαίδευσης, που περιέχει δεδομένα σχετικά με τους δυνητικούς πελάτες που δημιουργούνται από τους πιθανούς αγοραστές για τις υπηρεσίες ή τα προϊόντα της εταιρείας. Πρέπει να χρησιμοποιήσουμε τα δεδομένα για να εκτελέσουμε EDA πάνω από αυτά και να βγάλουμε συμπεράσματα. Για να διατηρήσουμε αυτό το άρθρο σύντομο, χρησιμοποιούμε μόνο 8 λειτουργίες.
  • Η αντιμετώπιση μηδενικών τιμών που υπάρχουν σε στήλες τύπου αντικειμένου και στήλες τύπου int/float, και οι δύο έχουν διαφορετική προσέγγιση για την αντιμετώπιση τιμών που λείπουν.
  • Εκτελώντας γραφικό και μη γραφικό EDA πάνω από το σύνολο δεδομένων, χρησιμοποιήσαμε ένα γράφημα μέτρησης και πλαισίου για το γραφικό EDA. Για μη γραφικό EDA, χρησιμοποιήσαμε μετρήσεις τιμών, αναλογίες κ.λπ., για να βγάλουμε συμπεράσματα.
  • Εξαγωγή συμπερασμάτων με χρήση τύπου EDA, εύρεση της τιμής με την καλύτερη απόδοση από κάθε στήλη, ανακάλυψη της τιμής που δημιούργησε τους περισσότερους και τους λιγότερους δυνητικούς πελάτες, εύρεση σχέσεων μεταξύ στηλών κ.λπ.