Ανωνυμοποίηση δεδομένων έναντι κάλυψης δεδομένων

Ανωνυμοποίηση δεδομένων έναντι κάλυψης δεδομένων

März 11, 2023 0 Von admin

Ως επίδοξος επιστήμονας δεδομένων, πρέπει να αντιμετωπίζετε καθημερινά την τεράστια ευθύνη του απορρήτου των δεδομένων. Ανάλογα με το πού εργάζεστε και με ποια δεδομένα εργάζεστε, οι πρακτικές διαφέρουν πολύ, τα αποτελέσματα κυμαίνονται από άσχημα έως χειρότερα και τραγικά.

  • Μπορεί να αγγίζετε συνεχώς δεδομένα παραγωγής, χωρίς να σκέφτεστε το απόρρητο των θεμάτων.
  • Μπορεί να σας ζητηθεί να φροντίσετε μόνοι σας την ανωνυμοποίηση δεδομένων, ως μέρος της διαδικασίας προετοιμασίας δεδομένων.
  • Ίσως χρειαστεί να πολεμήσετε το status quo και να εξηγήσετε στους ανθρώπους τι είναι ανώνυμα δεδομένα και τι όχι.
  • Σε κλάδους που είναι πιο ευαίσθητοι στο απόρρητο, όπως οι τραπεζικές και οι ασφάλειες, μπορεί να καταλήξετε να εργάζεστε με δεδομένα που έχουν καταστραφεί με παλιά εργαλεία ανωνυμοποίησης δεδομένων από τμήματα πληροφορικής που δεν γνωρίζουν σχεδόν τίποτα για την επιστήμη δεδομένων.

Ακούγεται διασκεδαστικό? Λοιπόν, αν γνωρίζετε μερικούς βασικούς κανόνες και ποια εργαλεία να χρησιμοποιείτε πότε, μπορείτε να είστε σίγουροι για τις αποφάσεις σας για το απόρρητο των δεδομένων.

Αυτό το άρθρο είναι γραμμένο από την Agnes Fekete από την Αυστρία. Η Agnes εργάζεται για το Mostly.AI — δημιουργούν ασφαλή, ακριβή, σχετικά, διορατικά συνθετικά δεδομένα που βοηθούν τις ομάδες να συνεργαστούν και να καινοτομήσουν προς ένα πιο έξυπνο και δίκαιο μέλλον.

Ποιος είναι ο ορισμός των ανώνυμων δεδομένων;

Ας ξεκινήσουμε με κάτι φαινομενικά προφανές, που στην πραγματικότητα αποτελεί θέμα καυτής συζήτησης στους περισσότερους οργανισμούς. Σύμφωνα με Αιτιολογική σκέψη 26 του GDPR, ένα σύνολο δεδομένων είναι ανώνυμο όταν τα άτομα δεν μπορούν να αναγνωριστούν άμεσα ή έμμεσα.

Δεν συνιστάται συγκεκριμένη μεθοδολογία για την ανωνυμοποίηση δεδομένων, αλλά το κείμενο το αναφέρει ρητά αυτό Η ψευδωνυμοποίηση – όταν τα άμεσα αναγνωριστικά είναι κρυπτογραφημένα ή καλυμμένα – δεν είναι ανωνυμοποίηση. Ωστόσο, τεχνικές ψευδωνυμοποίησης, όπως η κρυπτογράφηση, χρησιμοποιούνται συχνά ή οι προσωπικές πληροφορίες απλώς αφαιρούνται από τα σύνολα δεδομένων στο όνομα του ανώνυμου. Αυτό κάνει ένα σύνολο δεδομένων ανώνυμο; Με τίποτα!

Τα λεγόμενα proxy-identifiers μπορούν ακόμα να προσδιορίσουν ένα άτομο στα δεδομένα. Σύμφωνα με έρευνα, Μόνο 15 δημογραφικά χαρακτηριστικά είναι αρκετά για να επαναπροσδιορίσουν σχεδόν όλους τους Αμερικανούς. Τα δεδομένα συμπεριφοράς ή χρονοσειρών που περιγράφουν μια σειρά γεγονότων, όπως συναλλαγές με πιστωτικές κάρτες, δεδομένα τοποθεσίας ή ταξίδια ασθενών, είναι ακόμη πιο δύσκολο να ανωνυμοποιηθούν. Μια βόλτα με ταξί μπορεί να είναι τόσο εντυπωσιακή όσο ένα δακτυλικό αποτύπωμα.

Ακόμη και χωρίς δεδομένα χρονοσειρών, μόνο η ποσότητα των δεδομένων μπορεί να προκαλέσει προβλήματα απορρήτου. Όσο περισσότερα δεδομένα υπάρχουν, τόσο πιο δύσκολο είναι να γίνει ανωνυμία χωρίς να καταστραφεί η χρησιμότητα δεδομένων. Οι νέοι τύποι επιθέσεων, όπως οι επιθέσεις σύνδεσης, όπου διαφορετικά σύνολα δεδομένων συνδέονται μεταξύ τους με δημόσια διαθέσιμα δεδομένα για την έκθεση της ταυτότητας των ατόμων, είναι επίσης σε άνοδο.

Αυτό που κάποτε ήταν αποδεκτό ως ανώνυμα δεδομένα, δεν είναι πλέον. Ως επιστήμονας δεδομένων, πρέπει να γνωρίζετε τις πιθανές παγίδες που θα μπορούσαν να προκαλέσουν τα κοινά εργαλεία ανωνυμοποίησης δεδομένων και πρέπει επίσης να γνωρίζετε ποια εργαλεία να χρησιμοποιήσετε.

Οι κίνδυνοι των εργαλείων ανωνυμοποίησης δεδομένων παλιού σχολείου

Ας δούμε αυτές τις παγίδες από κοντά!

Συσσωμάτωση

Συγκεντρώσεις δεδομένων είναι μια από τις πιο κοινές διαδικασίες που γίνονται σε δεδομένα στο όνομα του απορρήτου. Αρχικά, φαίνεται σαν ένας εύκολος και σίγουρος τρόπος για την ανωνυμοποίηση δεδομένων – ορίστε ένα ελάχιστο όριο για τον αριθμό των ατόμων που θα συμπεριληφθούν στα δεδομένα με τον ίδιο συνδυασμό χαρακτηριστικών, όπως φύλο και ηλικία. Οι ομάδες που δεν θα φτάσουν το όριο θα αποκλείονται.

Ωστόσο, γνωρίζοντας τον συνολικό αριθμό των ατόμων στη στήλη θα ήταν εύκολο να υπολογίσετε πόσα άτομα ήταν στην ομάδα που εξαιρείται. Ακόμη και χωρίς να γνωρίζουμε το σύνολο για κάθε στήλη, τα δεδομένα που παράγονται με την πάροδο του χρόνου θα μπορούσαν να προσδιορίσουν ένα μεμονωμένο άτομο που για παράδειγμα προστέθηκε στο σύνολο δεδομένων από τον ένα μήνα στον άλλο. Και όσο μεγαλύτερα και πιο σύνθετα είναι τα δεδομένα, τόσο πιο μπερδεμένο γίνεται αυτό. Ενα πράγμα είναι σίγουρο, Η συγκέντρωση δεν είναι ένας σίγουρος τρόπος για την προστασία του απορρήτου. Επιπλέον, λόγω του αποκλεισμού ορισμένων, μικρότερων ομάδων, η στατιστική χρησιμότητα και η ευαισθησία των δεδομένων μειώνεται μαζικά.

Τυχαιοποίηση

Τυχαιοποίηση χρησιμοποιείται επίσης συχνά με τη μορφή προσθήκης θορύβου σε σύνολα δεδομένων. Ωστόσο, ο θόρυβος δυσκολεύει μόνο τους εισβολείς να αναγνωρίσουν τα θέματα σε ένα σύνολο δεδομένων – όχι αδύνατο. Η προσθήκη θορύβου μπορεί να είναι μόνο ένα συμπληρωματικό μέτρο και δεν πρέπει ποτέ να χρησιμοποιείται από μόνη της. Μετάθεση – όταν τα σημεία δεδομένων, όπως τα ονόματα αλλάζουν για την προστασία του απορρήτου, μπορούν εύκολα να αναιρεθούν. Επιπλέον, οι συσχετισμοί μπορεί να καταστραφούν εντελώς με την εφαρμογή μετάθεσης στη στήλη, κάνοντας τα μοντέλα μηχανικής εκμάθησης λιγότερο έξυπνα, πιο κρυφά προκατειλημμένα και πιο επιρρεπή σε λάθη.

Κοινές τεχνικές ανωνυμοποίησης δεδομένων και η απόδοσή τους

Τι ακολουθεί για την ανωνυμοποίηση δεδομένων;

Εντάξει, διαπιστώσαμε ότι τα προαναφερθέντα παλιά εργαλεία δεν το κόβουν πλέον στον σημερινό κόσμο των περίπλοκων δομών δεδομένων και των ολοένα και πιο εξελιγμένων επιθέσεων. Υπάρχουν νέα εργαλεία με εντελώς νέες προσεγγίσεις στο απόρρητο που οδηγούνται από τις τεχνολογικές εξελίξεις που βλέπουμε γύρω μας.

Οι τεχνολογίες ενίσχυσης της ιδιωτικής ζωής ή τα PET για συντομία περιλαμβάνουν μερικές από τις πιο πρόσφατες καινοτομίες από τους τομείς της κρυπτογράφησης, των στατιστικών και της τεχνητής νοημοσύνης. Μερικά από αυτά βρίσκονται ακόμη σε πρώιμα στάδια και μόνο οι πιο τεχνολογικές εταιρείες έχουν πρόσβαση, όπως ομομορφική κρυπτογράφηση, το οποίο είναι υπολογιστικά πολύ εντατικό. (Περισσότερα για αυτό σύντομα…)

Οι πιο δημοφιλείς τεχνολογίες βελτίωσης του απορρήτου:

  1. Ομομορφική κρυπτογράφηση
  2. Συνθετικά δεδομένα που δημιουργούνται από AI
  3. Διαφορική ιδιωτικότητα
  4. Ομοσπονδιακή μάθηση

Ας τους δούμε έναν έναν!

Ομομορφική κρυπτογράφηση

Η τεχνολογία της ομομορφικής κρυπτογράφησης σάς επιτρέπει να κάνετε αναλύσεις σε κρυπτογραφημένα δεδομένα χωρίς ποτέ να τα αποκρυπτογραφήσετε. Δεν θα μπορείτε να έχετε πρόσβαση σε εργαλεία ομομορφικής κρυπτογράφησης από την κρεβατοκάμαρά σας, αλλά για παράδειγμα, ορισμένες μεγάλες τράπεζες λειτουργούν ήδη πιλοτικά έργα σχετικά με την εκπαίδευση προγνωστικών μοντέλων σε ομομορφικά κρυπτογραφημένα δεδομένα.

Συνθετικά δεδομένα που δημιουργούνται από AI

Για να μην συγχέεται με εικονικά δεδομένα που δημιουργούνται βάσει κανόνων, τα συνθετικά δεδομένα που δημιουργούνται από AI δημιουργούνται με βάση δείγματα δεδομένων. Η βαθιά εκμάθηση πρόκειται να φέρει επανάσταση σε πολλά πράγματα, συμπεριλαμβανομένου του απορρήτου των δεδομένων. Παραγωγή συνθετικών δεδομένων είναι ένας πολύ καλός τρόπος για να διατηρήσετε τις στατιστικές ιδιότητες ενός συνόλου δεδομένων χωρίς κανένα από τα αρχικά σημεία δεδομένων.

Πώς λειτουργεί;

Το AI χρειάζεται ένα αρκετά μεγάλο δείγμα δεδομένων για να μάθει τα μοτίβα και τους συσχετισμούς. Μόλις πραγματοποιηθεί η εκπαίδευση, ο αλγόριθμος μπορεί να δημιουργήσει τόσα ή τόσο λίγα στατιστικά παρόμοια δεδομένα με τον αρχικό. Όπως με κάθε μέθοδο απορρήτου δεδομένων, τα συνθετικά δεδομένα πρέπει να παράγονται με μεγάλη προσοχή. Εάν η τεχνητή νοημοσύνη υπερισχύει, μπορεί να μάθει τα αρχικά δεδομένα κατά λάθος. Εάν τα ακραία στοιχεία δεν αντιμετωπιστούν σωστά, μπορεί να διαρρεύσει κάποιο απόρρητο.

Υπάρχουν παραγωγοί συνθετικών δεδομένων ανοιχτού κώδικα εκεί έξω που απαιτούν δεξιότητες κωδικοποίησης και υψηλού επιπέδου γνώσεις για την ακρίβεια και την παρακολούθηση του απορρήτου. Οι ιδιόκτητες συνθετικές γεννήτριες δεδομένων προσφέρουν μια ευκολότερη εναλλακτική λύση με διεπαφές χωρίς κώδικα. Δεδομένου ότι είναι αρκετά εύκολο να δημιουργηθούν, το κύριο περιπτώσεις χρήσης συνθετικών δεδομένων περιλαμβάνει τη δημιουργία δεδομένων δοκιμής καθώς και τη δημιουργία δεδομένων εκπαίδευσης για μοντέλα μηχανικής εκμάθησης.

Η διαδικασία σύνθεσης μπορεί επίσης να χρησιμοποιηθεί για σκοπούς αύξησης δεδομένων, για παράδειγμα για να δειγματοληψία μειοψηφικές ομάδες σε σύνολα δεδομένων. Εφόσον η τεχνητή νοημοσύνη μαθαίνει όλα τα μοτίβα και τους συσχετισμούς, τα νέα σας συνθετικά θέματα θα φαίνονται ρεαλιστικά.

Ένα παράδειγμα της αυτοματοποιημένης αναφοράς QA μιας γεννήτριας συνθετικών δεδομένων

Διαφορική ιδιωτικότητα

Το διαφορικό απόρρητο είναι λίγο περίεργο στη λίστα των τεχνολογιών που ενισχύουν το απόρρητο, καθώς δεν είναι τόσο μια διαδικασία δημιουργίας απορρήτου, αλλά ένας μαθηματικός ορισμός του απορρήτου. Ένας αλγόριθμος είναι διαφορικά ιδιωτικός εάν η έξοδος του δεν διαφέρει εάν τα δεδομένα οποιουδήποτε ατόμου συμπεριλήφθηκαν στο αρχικό σύνολο δεδομένων. Αυτός ο αριθμός ονομάζεται τιμή έψιλον.

Όσο μεγαλύτερος είναι ο αριθμός, τόσο πιο πιθανό είναι να υπάρχει διαρροή απορρήτου. Οτιδήποτε κάτω από 1 μπορεί να θεωρηθεί ως αξία προστασίας της ιδιωτικής ζωής του epsilon. Ωστόσο, σπάνια θα δείτε τέτοιες αξίες στη φύση, κάτι που είναι ένα θέμα από μόνο του. Εταιρείες όπως η Apple καυχώνται ότι χρησιμοποιούν epsilons έως και 8.

Γεια, αλλά τουλάχιστον είναι διαφανείς σχετικά με αυτό, σε αντίθεση με τους περισσότερους άλλους μεγάλους τεχνικούς. Το διαφορικό απόρρητο μπορεί να είναι μόνο ένα πρόσθετο μέτρο απορρήτου. Τις περισσότερες φορές χρησιμοποιείται σε συνδυασμό με άλλο PET, όπως συνθετικά δεδομένα ή ομοσπονδιακή μάθηση.

Ομοσπονδιακή μάθηση

Η ομοσπονδιακή μάθηση χρησιμοποιείται συχνά στην τεχνολογία κινητής τηλεφωνίας όπου τα μοντέλα μηχανικής εκμάθησης μπορούν να εκπαιδεύονται και να λειτουργούν τοπικά σε συσκευές, επομένως τα δεδομένα δεν χρειάζεται να ταξιδεύουν καθόλου. Αυτές οι ενημερώσεις τοπικών μοντέλων τροφοδοτούνται σε ένα κεντρικό μοντέλο. Αν και τα δεδομένα δεν μετακινούνται ποτέ από το ένα μέρος στο άλλο, το απόρρητο μπορεί να διαρρεύσει μέσω των μοντέλων. Σε αυτήν την περίπτωση, το διαφορικό απόρρητο είναι τέλειο για την παρακολούθηση του επιπέδου απορρήτου των μοντέλων. Υπάρχουν επίσης και άλλες ανώνυμες τεχνολογίες υπολογιστών και λειτουργούν με παρόμοιες αρχές, όπως ο ασφαλής υπολογισμός πολλαπλών μερών, όπου διαφορετικά μέρη μπορούν να εργαστούν στα ίδια κρυπτογραφημένα δεδομένα, τα οποία διατηρούνται ιδιωτικά από τους συμμετέχοντες. Είναι μια αρκετά περίπλοκη διαδικασία και ως εκ τούτου, δεν είναι ένα χαμηλό φρούτο του κόσμου PET.

Σύγκριση τεχνολογιών ενίσχυσης της ιδιωτικής ζωής

Το συμπέρασμα: έξω με το παλιό, μέσα με το νέο

Ενώ ορισμένες τεχνικές ανωνυμοποίησης δεδομένων παλαιού τύπου μπορούν να εξακολουθούν να είναι χρήσιμες σε ορισμένες περιπτώσεις χαμηλού όγκου δεδομένων, είναι καλό να γνωρίζετε τους περιορισμούς. Οι τεχνικές απόκρυψης δεδομένων, όπως η ψευδωνυμοποίηση, η τυχαιοποίηση, η διαγραφή και ούτω καθεξής συγκαλύπτουν σημαντικές λεπτομέρειες και πληροφορίες, καθώς και ζητήματα απορρήτου που θα μπορούσαν να είναι σημαντικά. Ακριβώς επειδή δεν μπορείτε να το δείτε, δεν σημαίνει ότι δεν είναι εκεί. Παίξτε με νέα PET, ξεκινώντας με τις εύκολα προσβάσιμες τεχνολογίες, όπως π.χ διαφορική ιδιωτικότητα ή συνθετικά δεδομένα.

Οι κανονισμοί περί απορρήτου γίνονται όλο και πιο αυστηροί καθημερινά και οι εταιρείες αναζητούν ολοένα και περισσότερο δεξιότητες εφαρμογής απορρήτου δεδομένων στις διαδικασίες πρόσληψης για να προστατεύσουν όχι μόνο τα δεδομένα των πελατών τους, αλλά και τη δική τους φήμη.

Λυπηθείτε παιδιά, το απόρρητο είναι εδώ για να μείνει και καλύτερα να τα καταφέρουμε.

Στην υγειά σας,
Άγνη