Διερεύνηση τεχνικών κατάτμησης εικόνας, υπολογιστικής νοημοσύνης και εμπείρων συστημάτων στην Τηλεπισκόπηση



Άγγελος Τζώτσος

Εργαστήριο Τηλεπισκόπησης, ΣΑΤΜ, ΕΜΠ

Αιρετό μέλος OSGeo

Μέλος OGC

Δομή Παρουσίασης

  • Εισαγωγή
  • Στόχος της διατριβής
  • Μεθοδολογία, Αποτελέσματα και Αξιολόγηση (ανά κεφάλαιο/δημοσίευση):
    • Πολυκλιμακωτή κατάτμηση εικόνας με συνένωση περιοχών
    • Πολυκλιμακωτή κατάτμηση εικόνας με ολοκλήρωση μεθόδων υφής
    • Αντικειμενοστρεφής Ανάλυση Εικόνας με Μηχανές Διανυσματικής Υποστήριξης (Support Vector Machines)
    • Αντικειμενοστρεφής Ανάλυση Εικόνας με προηγμένες τεχνικές φιλτραρισμάτων χώρου-κλίμακας
    • Πολυκλιμακωτή κατάτμηση εικόνας με ολοκλήρωση μεθόδων ανίχνευσης ακμών
    • Αντικειμενοστρεφής Ανάλυση Εικόνας με Μηχανές Διανυσμάτων Συνάφειας (Relevance Vector Machines)
    • Αντικειμενοστρεφής Ανάλυση Εικόνας με Υπολογιστική Νοημοσύνη και Έμπειρα Συστήματα
  • Συνεισφορά της διατριβής
  • Συμπεράσματα

Εισαγωγή

Η Τηλεπισκόπηση σήμερα

  • Εξέλιξη της τεχνολογίας των δεκτών
  • Πολύ υψηλές διακριτικές ικανότητες: χωρική, χρονική, φασματική, ραδιομετρική
  • Εξέλιξη σε αριθμό δεκτών (Τηλεπισκοπικοί δέκτες σε τροχιά > 300)
  • Δορυφόροι, αερομεταφερόμενοι σαρωτές, UAVs

Μεγάλα Δεδομένα - Big Data

  • 4 Vs:
    • Volume (Όγκος)
    • Variety (Ποικιλία)
    • Velocity (Ταχύτητα)
    • Veracity (Αβεβαιότητα)
  • NASA EOSDIS: 7.5 PetaBytes, 1.5 M σκηνές Landsat = 1 PetaByte
  • Copernicus (8 TB ανά ημέρα)
  • Διαδικτυακή Επεξεργασία - OGC WPS, WCPS

Αύξηση ετερογένειας

users

Εικόνα Landsat TM 1986: Καλαμάτα

Αύξηση ετερογένειας

users

Εικόνα IKONOS 2000: Ηράκλειο Κρήτης

Αύξηση ετερογένειας

users

Εικόνα DMC 2007 - 5cm ανά pixel

Αύξηση ετερογένειας

users

Εικόνα DMC 2007 - 5cm ανά pixel

Αύξηση ετερογένειας

users

Εικόνα DMC 2007 - 5cm ανά pixel

Προβλήματα ταξινόμησης

  • Οι κλασικές μέθοδοι ταξινόμησης με βάση το εικονοστοιχείο αδυνατούν να επεξεργαστούν τέτοιου είδους δεδομένα
  • Δεν λαμβάνεται υπόψη η συσχέτιση με το περιβάλλον και η σημασιολογική πληροφορία
  • Τα σημασιολογικά αντικείμενα εικόνας δεν ανήκουν στην ίδια κλίμακα

Συσχέτιση με το περιβάλλον;

users

Συσχέτιση με το περιβάλλον!!!

users

Εικόνα DMC 2007 - 5cm ανά pixel

Που βρισκόμαστε σήμερα στην έρευνα;

  • Σημαντικό κομμάτι της έρευνας παράγεται στην ενσωμάτωση μεθόδων Όρασης Υπολογιστών και Τεχνητής Νοημοσύνης στην Τηλεπισκόπηση
  • Στην Όραση Υπολογιστών, η ανάλυση εικόνας γίνεται σε τρία επίπεδα: Χαμηλό, Μέσο και Υψηλό
  • Το Χαμηλό/Μέσο επίπεδο είναι συνήθως διαδικαστικό (procedural)
  • Το Υψηλό επίπεδο είναι πάντα συμπερασματικό (inferential)

Εισαγωγή στην Αντικειμενοστρεφή Ανάλυση Εικόνας (OBIA)

OBIA

  • Ολοκλήρωση Χαμηλού, Μέσου και Υψηλού επιπέδου ανάλυσης εικόνας
  • Αντικειμενοστρεφής Ανάλυση Εικόνας (Object-Based Image Analysis)
  • Κλάδος της Τηλεπισκόπησης και της Γεωπληροφορικής από το 2000
  • Σε εικόνες υψηλής ανάλυσης, η πληροφορία της χρήσης/κάλυψης γής είναι πιθανότερο να σχετίζεται με ένα σύνολο συνδεδεμένων εικόνοστοιχείων παρά με ένα μεμονομένο εικονοστοιχείο

GEOBIA

users

GEOBIA

  • Περνώντας από τα εικονοστοιχεία στα αντικείμενα, μπορεί να αναπαρασταθεί επιπλέον πληροφορία που αφορά:
    • Τη συσχέτιση με το περιβάλλον
    • Την τοπολογία
    • Την κλίμακα
    • Το σχήμα
    • Την υφή
  • Στην μεθοδολογία αυτή το χαμηλό και μέσο επίπεδο ανάλυσης εικόνας παράγει τα πρωτογεννή αντικείμενα, ενώ το υψηλό επίπεδο ανάλυσης εικόνας συνάγει τα σημασιολογικά αντικείμενα μέσω ταξινόμησης με βάση τη γνώση

Στάδια Αντικειμενοστρεφούς Ανάλυσης Εικόνας

  • Προεπεξεργασία (ραδιομετρικές, γεωμετρικές διορθώσεις, φιλτρα, δείκτες κλπ)
  • Κατάτμηση Εικόνας
  • Υπολογισμός χαρακτηριστικών των αντικειμένων (φασματικά, γεωμετρικά, χωρικά)
  • Αναπαράσταση γνώσης με κανόνες ή με αλγορίθμους μάθησης
  • Ταξινόμηση
  • Αξιολόγηση ακρίβειας
  • Εξαγωγή διανυσματικών χαρακτηριστικών σε χωρική βάση δεδομένων

GEOBIA

users

Πολυκλιμακωτή Ανάλυση

users

Πολυκλιμακωτή Ανάλυση

users

Στόχος της διατριβής

Στόχος της διατριβής

  • Υλοποίηση μιας πρωτοποριακής τεχνολογίας αντικειμενοστρεφούς ανάλυσης εικόνας που να δίνει δυνατότητα επεξεργασίας των σύγχρονων τηλεπισκοπικών δεδομένων (πολυφασματικά, υπερφασματικά κλπ)
  • Ολοκλήρωση σύγχρονων τεχνικών Όρασης Υπολογιστών στην Αντικειμενοστρεφή Ανάλυση Εικόνας (χώροι-κλίμακας, σύνθετοι αλγόριθμοι ανίχνευσης χαρακτηριστικών κλπ)
  • Ολοκλήρωση καινοτόμων τεχνικών Υπολογιστικής Νοημοσύνης στην Αντικειμενοστρεφή Ανάλυση Εικόνας (Τεχνικές Επιβλεπόμενης Ταξινόμησης)
  • Υλοποίηση ενός νέου αλγορίθμου κατάτμησης εικόνας με στόχο την εξαγωγή πρωτογεννών αντικειμένων σε πολλαπλές κλίμακες με την ελλαχιστοποίηση παραμέτρων
  • Ολοκλήρωση συστημάτων βασισμένων στη γνώση (Έμπειρα Συστήματα) στην Αντικειμενοστρεφή Ανάλυση Εικόνας
  • Υλοποίηση της νέας τεχνολογίας σαν Ελεύθερο Λογισμικό για την προώθηση της Άνοιχτής Γνώσης και Ανοιχτής Έρευνας

Ελέυθερο Λογισμικό (FOSS)


  • Ελευθερία 0: Να εκτελείτε το πρόγραμμα για οποιονδήποτε σκοπό.
  • Ελευθερία 1: Να μελετάτε τον τρόπο λειτουργίας του προγράμματος και να το προσαρμόζετε στις ανάγκες σας. Η πρόσβαση στον πηγαίο κώδικα είναι προϋπόθεση για να ισχύει κάτι τέτοιο.
  • Ελευθερία 2: Να αναδιανέμετε αντίγραφα του προγράμματος ώστε να βοηθάτε το συνάνθρωπο σας.
  • Ελευθερία 3: Να βελτιώνετε το πρόγραμμα και να δημοσιεύετε τις βελτιώσεις που έχετε κάνει στο ευρύ κοινό, ώστε να επωφεληθεί ολόκληρη η κοινότητα.

Free and Open Source Software (FOSS)


  • Σήμερα όλοι το χρησιμοποιούν ακόμα και αν δεν το γνωρίζουν
  • Είναι προαπαιτούμενο για εφαρμογές Μεγάλων Δεδομένων και Τεχνολογιών Cloud


GNU OSS

Οργανισμός Ελεύθερου Γεωχωρικού Λογισμικού (OSGeo)

Από το 2006 υποστηρίζει:

  • Το Ελεύθερο Γεωχωρικό Λογισμικό
  • Την Εκπαίδευση
  • Τα Ανοιχτά Δεδομένα

OSGeo

OSGeoLive

  • Διανομή GNU/Linux
  • 60+ Ελεύθερα Γεωχωρικά Λογισμικά
  • Δοκιμαστικά Ανοιχτά Δεδομένα
  • Εγχειρίδια Χρήσης
  • Μεταφρασμένο σε πολλές γλώσσες. Στα Ελληνικά από την Κοινότητα Ελεύθερου Λογισμικού ΕΜΠ και ΣΑΤΜ

Κεφάλαια Διατριβής

  • Μεθοδολογία
  • Αποτελέσματα
  • Αξιολόγηση

Πολυκλιμακωτή κατάτμηση εικόνας με συνένωση περιοχών

A Generic Region-Based Multi-Scale Image Segmentation Algorithm for Remote Sensing Imagery (2005)

Στόχος

  • Υλοποίηση αλγορίθμου κατάτμησης εικόνας με βάση την συνένωση περιοχών (region merging)
  • Δημιουργία πρωτογεννών αντικειμένων σε πολλαπλές κλίμακες (hierarchical segmentation)
  • Επαναληψιμότητα αποτελεσμάτων
  • Διερεύνηση νέων τεχνικών αναζήτησης συνένωση περιοχών

MSEG

  • Ο MSEG είναι ένας αλγόριθμος κατάτμησης εικόνας, βασισμένος σε συνένωση περιοχών
  • Υλοποιήθηκε το 2005 κάτω από την άδεια GPL
  • Ξεκινώντας από το εικονοστοιχείο, πραγματοποιούνται διαδοχικές συνενώσεις περιοχών της εικόνας
  • Η συνένωση περιοχών γίνεται υπολογίζοντας μια συνάρτηση κόστους τοπικής ετερογένειας της εικόνας
  • Ο αλγόριθμος υλοποιεί βελτιώσεις σχετικά με τον υπολογισμό των αρχικών σημείων

MSEG

users

Υπολογισμός αρχικών σημείων

Υλοποιήθηκαν 2 μέθοδοι:

  • Στατιστική μέθοδος βασισμένη σε τοπικά μέγιστα και ελάχιστα
  • Μέθοδος βασισμένη σε αλγορίθμους dithering


Με την δεύτερη επιτυγχάνεται 100% επαναληψιμότητα αποτελεσμάτων

Η μέθοδος χρησιμοποιείται για τον προσδιορισμό της σειράς επεξεργασίας και όχι σαν σημεία αρχικοποίησης (seed points)

Υπολογισμός αρχικών σημείων

users users

Αρχικά σημεία: με μέθοδο τοπικών μεγίστων (αριστερά) και με τον αλγόριθμο Floyd,Steinber (δεξιά)

Υπολογισμός αρχικών σημείων

users users

Εφαρμογή μεθόδου dithering σε ολόκληρη την εικόνα (αριστερά) και σε μέρος της εικόνας (δεξιά)

Υπολογισμός ετερογένειας

users

Ορισμός ετερογένειας h με βάση μόνο φασματικά χαρακτηριστικά. Όπου w είναι τα βάρη των καναλιών, n είναι το εμβαδό σε εικονοστοιχεία και σ η τυπική απόκλιση.

Υπολογισμός ετερογένειας

users users

users

Ορισμός ετερογένειας με βάση χαρακτηριστικά σχήματος. Όπου n είναι το εμβαδό σε εικονοστοιχεία, l είναι η περίμετρος του αντικειμένου και b η περίμετρος του περιγεγραμμένου παραλληλογράμου (bounding box)

Υπολογισμός ετερογένειας

users

Ορισμός συνολικής ετερογένειας αντικειμένου h. Όπου w είναι τα αντίστοιχα βάρη που θέτει ο χρήστης

Συντελεστής κλίμακας

  • Ο συντελεστής κλίμακας f είναι το κατώφλι της επιτρεπόμενης ετερογένειας του τελικού αντικειμένου που προκύπτει από μια συνένωσης περιοχών
  • Όσο μεγαλύτερος ο συντελεστής κλίμακας, τόσο μεγαλύτερα τα αντικείμενα

users

Πολυκλιμακωτή Ανάλυση

users

Κατάτμηση τηλεπισκοπικής απεικόνισης Landsat TM

users users

Αριστερά: Αρχική εικόνα Landsat (Dessau). Δεξιά: Αποτέλεσμα κατάτμησης MSEG με συντελεστή κλίμακας 400

Κατάτμηση τηλεπισκοπικής απεικόνισης Landsat TM

users users

users users

Αριστερά: Κατάτμηση Baatz,Shape με κλίμακες 10,20. Δεξιά: Αποτέλεσμα κατάτμησης MSEG με συντελεστές κλίμακας 100,400

Κατάτμηση αερομεταφερόμενου ψηφιακού τηλεπισκοπικού δέκτη

users users

Αριστερά: Αρχική εικόνα με μέγεθος εικονοστοιχείου 0.5m. Δεξιά: Αποτέλεσμα κατάτμησης MSEG με συντελεστή κλίμακας 400

Πολυκλιμακωτή κατάτμηση εικόνας με ολοκλήρωση μεθόδων υφής

A Hybrid Texture-based and Region-based Multi-scale Image Segmentation Algorithm (2006, 2008)

Στόχος

  • Υλοποίηση αλγορίθμου κατάτμησης εικόνας βασισμένου σε δείκτες υφής δευτέρου βαθμού
  • Διερεύνηση της επίδρασης της υφής στα πρωτογεννή αντικείμενα της εικόνας
  • Επέκταση της μεθοδολογίας του MSEG ώστε να λαμβάνει υπόψη την υφή κατά τη διαδικασία συνένωσης περιοχών

Γιατί την υφή;;;

  • Η αρχική μεθοδολογία MSEG χρησιμοποιούσε στον ορισμό της ετερογένειας την τυπική απόκλιση των φαματικών τιμών όλων των καναλιών της εικόνας
  • Η υφή είναι βασικό φωτοερμηνευτικό κλειδί
  • Οι δείκτες υφής δεύτερου βαθμού έχουν χρησιμοποιηθεί επιτυχώς σε πολλές εφαρμογές Τηλεπισκόπησης (βασισμένες σε εικονοστοιχεία)
  • Επίσης υπάρχουν διαδεδομένοι αλγόριθμοι υφής (φίλτρα Gabor, Wavelets, MRF) που όμως βρέθηκαν ασύμβατοι με την αντικειμενοστρεφή μεθοδολογία

Βασική ιδέα μεθόδου

  • Κατά την διαδικασία ελέγχου ενώσεων αντικειμένου να ελεγχέται μια τιμή ομοιότητας υφής, ώστε να λειτουργήσει σαν μέτρο σύγκρισης μεταξύ των αντικειμένων
  • Με αυτό τον μηχανισμό, πρωτογεννη αντικείμενα που παρουσιάζουν ίδια υφή θα είναι διαθέσιμα να συνενωθούν
  • Ο δείκτης υφής θα λειτουργεί είτε ανεξάρτητα είτε σε συνδιασμό με τους προηγούμενους δείκτες ετερογένειας

Δείκτες υφής Haralick

  • Βασίζονται στον υπολογισμό πινάκων συνεμφάνισης (grey level co-occurrence matrices)
  • Ο πίνακας GLCM είναι ένα δισδιάστατο ιστόγραμμα τόνων του γκρί μεταξύ δύο εικονοστοιχείων με δεδομένη χωρική απόσταση
  • Για να μην επιρεάζεται ο υπολογισμός από τη στροφή, τα ιστογράμματα υπολογίζονται σε πολλαπλές διευθύνσεις
  • Στην συνέχεια υπολογίζονται τα χαρακτηριστικά υφής από στατιστικά των πινάκων
  • Ομοιογένεια, Εντροπία, Μεταβλητότητα, Αντίθεση κ.α.

Υπολογισμός δεικτών υφής

users users

Αριστερά: Υπολογισμός GLCM. Δεξιά: Κύβος πινάκων GLCM για Ng τόνους του γκρί και N διευθύνσεις

Υπολογισμός δεικτών υφής

users

Ng: τόνοι του γκρί, P: τιμή του GLCM

Διάγραμμα ροής MSEG

users

Ομοιογένεια αντικειμένων

  • Αντί να υπολογίζονται οι πίνακες GLCM σε κινούμενο παράθυρο στην εικόνα ή για ολόκληρη την εικόνα, στον MSEG υπολογίζονται μόνο εσωτερικά σε κάθε αντικείμενο
  • Σε περίπτωση συνένωσης, προκύπτει νέος GLCM και νέα τιμή ιδιοτήτων υφής
  • Για να ενωθούν δύο αντικείμενα πρέπει η ομοιογένεια να έχει παρόμοια τιμή (εύρος που ορίζεται από το χρήστη και είναι ο συντελεστής υφής)
  • Υλοποιηση με ευρετήριο (index) για όλη την εικόνα και επιλογή ανάλογα σε ποιο αντικείμενο ανήκει το κάθε εικονοστοιχείο

Κατάτμηση τηλεπισκοπικής απεικόνισης Landsat TM

users users

Αριστερά: Κατάτμηση εικόνας με τον αλγόριθμο Baatz,Shape με συντελεστή κλίμακας 20. Δεξιά: Αποτέλεσμα κατάτμησης Texture-based MSEG με συντελεστή κλίμακας 2500

Ο συντελεστής υφής εμποδίζει την ένωση ετερογεννών περιοχών ακόμα και όταν ο συντελεστής κλίμακας το επιτρέπει

Κατάτμηση αερομεταφερόμενου ψηφιακού τηλεπισκοπικού δέκτη

users users

Αριστερά: Κατάτμηση εικόνας με τον αλγόριθμο Baatz,Shape με συντελεστή κλίμακας 25. Δεξιά: Αποτέλεσμα κατάτμησης Texture-based MSEG με συντελεστή κλίμακας 700 (συντελεστής υφής 3.0)

Κατάτμηση αερομεταφερόμενου ψηφιακού τηλεπισκοπικού δέκτη

users users

Αριστερά: Κατάτμηση εικόνας με τον αρχικό MSEG με συντελεστή κλίμακας 700. Δεξιά: Αποτέλεσμα κατάτμησης Texture-based MSEG με συντελεστή κλίμακας 700 (συντελεστής υφής 3.0)

Αντικειμενοστρεφής Ανάλυση Εικόνας με Μηχανές Διανυσματικής Υποστήριξης

Support Vector Machine Classification for Object-Based Image Analysis (2006, 2008)

Στόχος

  • Η ολοκλήρωση της αντικειμενοστρεφούς ανάλυσης εικόνας με προηγμένες μεθόδους υπολογιστικής νοημοσύνης (machine learning)
  • Διερευνηση της αποτελεσματικότητας των μηχανών διανυσματικής υποστήριξης (SVM) για αντικειμενοστρεφή ταξινόμηση
  • Σύγκριση SVM με τους κλασικούς ταξινομητές αντικειμένων που χρησιμοποιούνται στη βιβλιογραφία αλλά και σε γνωστά λογισμικά (π.χ. Εγγύτερο Γείτονα)

Υπολογιστική Νοημοσύνη

  • Κλάδος της Τεχνητής Νοημοσύνης
  • Αφορά υπολογιστικά συστήματα και αλγορίθμους που μαθαίνουν από δεδομένα
  • Σχεδόν όλοι μας χρησιμοποιούμε τέτοιου είδους αλγορίθμους πχ. φίλτρα ανεπιθύμητου ηλεκτρονικού ταχυδρομείου (spam filters)
  • Βασικά σημεία έρευνας είναι η αναπαράσταση δεδομένων και η γενίκευση
  • Εφαρμογές σε προβλήματα ταξινόμησης, όραση υπολογιστών, ιατρικές διαγνώσεις, χρηματηστήριο, επεξεργασία φυσικής γλώσσας, μηχανές αναζήτησης κ.α.
  • Νευρωνικά δίκτυα, ασαφή συστήματα, γενετικοί αλγόριθμοι, ευφυείς πράκτορες, μηχανές διανυσματικής υποστήριξης κ.α.

Support Vector Machines (SVM)

  • Προηγμένη μεθοδολογία υπολογιστικής μάθησης που θεωρείται μια από τις κορυφαίες της τελευταίας δεκαετίας
  • Ιδιαίτερα επιτυχής σε προβλήματα επιβλεπόμενης ταξινόμησης
  • Στις περισσότερες βιβλιογραφικές αναφορές, τα SVM έχουν αποδειχθεί ότι υπερτερούν έναντι των άλλων μεθόδων υπολογιστικής νοημοσύνης

SVM και Τηλεπισκόπηση

  • Ιδιαίτερα δημοφιλή τα τελευταία χρόνια για ταξινόμηση τηλεπισκοπικών δεδομένων, ιδιαίτερα υπερφασματικών, λόγω διαστάσεων
  • Έχει συγκριθεί με άλλες μεθόδους ταξινόμησης υπερτερώντας σε ακρίβεια και ευρωστία
  • Στο παρελθόν (2006) δεν είχε χρησιμοποιηθεί για αντικειμενοστρεφή ταξινόμηση στην βιβλιογραφία της Τηλεπισκόπησης

Αρχές λειτουργίας SVM

  • Αναζήτηση βέλτιστου υπερεπιπέδου διαχωρισμού ανάμεσα σε δείγματα εκπαίδευσης δύο κατηγοριών στον χώρο προτύπων
  • Από τα δείγματα εκπαίδευσης δίνεται βάρος σε εκείνα που βρίσκονται κοντά στο όριο του χαρακτηριστικού χώρου κάθε κατηγορίας
  • Τα δείγματα εκπαίδευσης κοντά στο όριο ονομάζονται διανύσματα υποστήριξης (support vectors)
  • Τα υπόλοιπα δείγματα δεν χρησιμοποιούνται

Αρχές λειτουργίας SVM

users users

Αριστερά: Η περίπτωση κατηγορίων που είναι γραμικά διαχωρίσιμες. Δεξιά: Η περίπτωση κατηγορίων που δεν είναι γραμικά διαχωρίσιμες

Αρχές λειτουργίας SVM

  • Τις περισσότερες φορές οι κατηγορίες δεν είναι γραμικά διαχωρίσιμες
  • Εισάγεται η συνάρτηση σφάλματος (κόστους)
  • Ο χώρος προτύπων χαρτογραφείται σε μεγαλύτερη διάσταση με τη χρήση συναρτήσεων που ονομάζονται kernels (πυρήνες) K(x,z)
  • Οι συναρτήσεις αυτές ακολουθούν το θεώρημα του Mercer (τα εσωτερικά γινόμενα των διανυσμάτων στον νέο χώρο προτύπων να μπορούν να εκφραστούν σαν συνάρτηση των εσωτερικών γινομένων των αντίστοιχων διανυσμάτων στον αρχικό χώρο προτύπων)
  • Με τη χρήση πολλαπλασιαστών Lagrange βρίσκουμε τα τοπικά ελλάχιστα της συνάρτησης:

users users

users

Ταξινόμηση SVM με πολλές κατηγορίες

  • One against All - Μια κατηγορία εναντίων όλων (Ν μοντέλα SVM)
  • One against One - Μια κατηγορία εναντίων μιάς κατηγορίας κάθε φορά ((Ν-1)Ν/2 μοντέλα SVM)

Η δεύτερη προσέγγιση είναι πιο αποτελεσματική με βάση τη βιβλιογραφία και η απόφαση της ταξινόμησης λαμβάνεται με τελεστή max-win

Αντικειμενοστρεφής ταξινόμηση SVM

  • Αρχικά γίνεται κατάτμηση της αρχικής εικόνας (σε μια ή περισσότερες κλίμακες)
  • Από τα πρωτογεννή αντικείμενα της εικόνας υπολογίζονται χαραστηριστικά (φασματικά, γεωμετρικά, υφής, τοπολογικά)
  • Η γεωμετρία και τα χαρακτηριστικά εξάγονται σε διανυσματική βάση δεδομένων
  • Επιλέγονται δείγματα (από διανυσματικά πολύγωνα πάνω στην εικόνα ή από τα ήδη υπάρχοντα αντικείμενα)
  • Για τα πολύγωνα υπολογίζονται στατιστικά
  • Ο αλγόριθμος SVM εκπαιδεύεται
  • Στη συνέχεια στο μοντέλο του εκπαιδευμένου SVM παρέχονται όλα τα αντικείμενα της εικόνας για να ταξινομηθούν στις αντίστοιχες κατηγορίες
  • Εξάγεται η ταξινόμηση στην βάση δεδομένων
  • Αξιολογείται το αποτέλεσμα με βάση δεδομένα ελέγχου από το πεδίο ή από φωτοερμηνεία

Αντικειμενοστρεφής ταξινόμηση SVM

  • 4 τύποι συναρτήσεων kernels (Linear, Polynomial, Radial Basis Function, Sigmoid)
  • Απαιτείται ο υπολογισμός παραμέτρων για το μοντέλο εκμάθησης SVM ανάλογα με τον πυρήνα
  • Για τον προσδιορισμό των παραμέτρων ακολουθείται διαδικασία cross-validation
  • Τα δείγματα εκπαίδευσης χωρίζονται σε ομάδες και δοκιμάζονται κυκλικά με στόχο να βρεθεί η βέλτιστη τιμή για τις παραμέτρους εκπαίδευσης

Αποτελέσματα

users users

Αρχική εικόνα Landsat TM (αριστερά) και δεδομένα εκπαίδευσης (δεξιά)

Αποτελέσματα

users users

Αποτέλεσμα προσδιορισμού παραμέτρων SVM με cross-validation (αριστερά) και δεδομένα ελέγχου (δεξιά)

Αποτελέσματα

users users users

Αποτέλεσμα ταξινόμησης με τον Εγγύτερο Γείτονα (85.6%) (αριστερά) και αποτέλεσμα ταξινόμησης με SVM (90.6%) (δεξιά)

Εισαγωγή σφαλμάτων στα δεδομένα εκπαίδευσης

users users users

Αποτέλεσμα ταξινόμησης με τον Εγγύτερο Γείτονα (84.1%) (αριστερά) και αποτέλεσμα ταξινόμησης με SVM (86.0%) (δεξιά)

Αποτελέσματα

users users

Αρχική εικόνα αερομεταφερόμενου σαρωτή (αριστερά) και δεδομένα εκπαίδευσης (δεξιά)

Αποτελέσματα

users users

Αποτέλεσμα προσδιορισμού παραμέτρων SVM με cross-validation (αριστερά) και δεδομένα ελέγχου (δεξιά)

Αποτελέσματα

users

Πρωτογεννή αντικείμενα MSEG στην χωρική βάση δεδομένων (απεικόνιση στο QGIS)

Αποτελέσματα

users users users

Αποτέλεσμα ταξινόμησης με τον Εγγύτερο Γείτονα (87.4%) (αριστερά) και αποτέλεσμα ταξινόμησης με SVM (87.6%) (δεξιά)

Αντικειμενοστρεφής Ανάλυση Εικόνας με προηγμένες τεχνικές φιλτραρισμάτων χώρου-κλίμακας

Object-based Image Analysis Through Nonlinear Scale-Space Filtering (2011)

Στόχος

  • Ολοκλήρωση της αντικειμενοστρεφούς ανάλυσης εικόνας με προηγμένες μεθόδους όρασης υπολογιστών (Computer Vision)
  • Διερεύνηση των αναπαραστάσεων κλίμακας-χώρου (scale-space) στην κατάτμηση άμεσα και έμμεσα στην αντικειμενοστρεφή ταξινόμηση
  • Ολοκλήρωση των μεθόδων κλίμακας-χώρου με την αντικειμενοστρεφή ταξινόμηση SVM
  • Υλοποίηση ενός αντικειμενοστρεφούς συστήματος ταξινόμησης στο οποίο δεν θα απαιτείται βελτιστοποίηση παραμέτρων

Αναπαράσταση πολλαπλών κλιμάκων

  • Τα σημασιολογικά αντικείμενα στην επιφάνεια της γής δεν μπορούν να αναπαρασταθούν σε μια κλίμακα, αλλά σε πολλές
  • Η αναπαράσταση σε πολλαπλές κλίμακες είναι ζητούμενο θεμελιώδους σημασίας για πολλές εφαρμογές Τηλεπισκόπησης
  • Η μεθοδολογία OBIA παρέχει μεθόδους αναπαράστασης του χώρου σε πολλάπλές κλίμακες μέσω ιεραρχικών δομών και αλγορίθμων κατάτμησης εικόνας

Αναπαράσταση κλίμακας-χώρου

  • Και στον χώρο της Όρασης Υπολογιστών η πολυκλιμακωτή ανάλυση αποτελεί σημαντικό κομμάτι έρευνας
  • Γραμμικές μέθοδοι πολυκλιμακωτής ανάλυσης χρησιμοποιούνται από πολύ παλιά.
  • Μέσω των γραμμικών μεθόδων (με υπο-δειγματοληψία των αρχικών δεδομένων) παρουσιάζονται σημαντικά μειονεκτήματα: χάνεται η πληροφορία των ακμών και νέα μη σημασιολογικά αντικείμενα εμφανίζονται σε χονδρόκοκες κλίμακες

Αναπαράσταση κλίμακας-χώρου

Μη γραμμικοί τελεστές και μη γραμμικές αναπαραστάσεις κλίμακας-χώρου έχουν μελετηθεί σε πολλές εφαρμογές Όρασης Υπολογιστών

  • Με βάση την θεμελιώδη εργασία των Perona και Malik το 1990, υπήρξε άνθιση έρευνας στις μερικές διαφορικές εξισώσεις και στα φιλτραρίσματα ανισοτροπικής διάχυσης
  • Μια εναλλακτική μέθοδος για δημιουργία μη γραμικών αναπαραστάσεων κλίμακας-χώρου (scale-space) είναι μέσω Μαθηματικής Μορφολογίας και των Μορφολογικών Επιπεδοσυνόλων, μέσω της εργασίας του Meyer το 1998

Μορφολογικά Επιπεδοσύνολα

Ιδιότητες:

  • Δεν δημιουργούν μέγιστα σε μεγάλες κλίμακες
  • Μεγαλώνουν τις ομαλές περιοχές της εικόνας και δημιουργούν περισσότερες
  • Είναι ιδιαίτερα εύρωστα (robust)
  • Δεν μετακινούν ακμές στην εικόνα, όπως πολλά μορφολογικά φίλτρα
  • Είναι ανεξάρτητα μετάθεσης, στροφής και αλλαγής στην φωτεινότητα της εικόνας

Ανισοτροπικά Μορφολογικά Επιπεδοσύνολα

  • Πρόκειται για έναν συνδιασμό μορφολογικών επιπεδοσυνόλων με μη ισοτροπικούς δείκτες (markers) και εφαρμόζονται για την μείωση της ετερογέννειας της εικόνας
  • Τα Ανισοτροπικά Μορφολογικά Επιπεδοσύνολα (Anisotropic Morphological Levelings) μειώνουν το πρόβλημα της υπερκατάτμησης
  • Η μέθοδος εφαρμόζεται στο στάδιο της προεπεξεργασίας των αρχικών δεδομένων με στόχο της εξομάλυνση της εικόνας

Αρχές λειτουργίας AML

  • Η συνάρτηση g είναι επιπεδοσύνολο της f όταν ισχύει
    users
  • Κατασκευάζουμε συναρτήσεις h με στόχο τον διαχωρισμό των g και f με τον τύπο:
    users
  • Τέλος η πολυκλιμακωτή αναπαράσταση εκφράζεται με μια σειρά από επιπεδοσύνολα:
    users

Ισοτροπικό vs Ανισοτροπικό φιλτράρισμα κλίμακας-χώρου

usersusersusersusers

usersusersusersusers

Αριστερά προς τα δεξιά: Αρχική εικόνα, φιλτράρισμα σε κλίμακες 10, 50, 100

Παράδειγμα AML

users users users

Αριστερά προς τα δεξιά: Αρχική εικόνα, φιλτράρισμα σε κλίμακες 50, 100

Ολοκλήρωση Κατάτμησης με AML

  • Τα Ανισοτροπικά Μορφολογικά Επιπεδοσύνολα εφαρμόζονται στην αρχική εικόνα σε πολλαπλές κλίμακες
  • Η ετερογένεια των σημασιολογικών αντικειμένων μειώνεται με άμεσο αποτέλεσμα ο υπολογισμός ετερογένειας του MSEG να δίνει μικρότερες τιμές
  • Το άμεσο αποτέλεσμα είναι ότι ο συντελεστής κλίμακας του MSEG αποδίδει μεγαλύτερα πρωτογεννή αντικείμενα από ότι αναμένεται
  • Τα όρια των ακμών δεν έχουν μετατοπιστεί ούτε εξομαλυνθεί με συνέπεια τα αποτελέσματα της κατάτμησης να είναι ιδιαιτέρως επιτυχή

Αποτελέσματα

users

Χωρικές τομές της εικόνας και σύγκριση ψηφιακών τιμών σε διάφορες κλίμακες του AML

Αποτελέσματα

users users

Αποτέλεσμα κατάτμησης MSEG σε εικόνα SAR πρίν και μετά την εξομάλυνση με AML

Αποτελέσματα

users users

Αποτέλεσμα κατάτμησης MSEG σε εικόνα αερομεταφερόμενου ψηφιακού δέκτη (διάσταση εικονοστοιχείου 5cm) πρίν και μετά την εξομάλυνση με AML

Αποτελέσματα

users users

Αποτέλεσμα κατάτμησης MSEG σε εικόνα αερομεταφερόμενου ψηφιακού δέκτη (διάσταση εικονοστοιχείου 5cm) πρίν και μετά την εξομάλυνση με AML

Αποτελέσματα

users users

Αποτέλεσμα κατάτμησης MSEG σε εικόνα Landsat TM πρίν και μετά την εξομάλυνση με AML

Αντικειμενοστρεφής ταξινόμηση

users users

Ανάλυση ευαισθησίας (sensitivity analysis) αντικειμενοστρεφούς ταξινόμησης για διαφορετικές κλίμακες

Αντικειμενοστρεφής ταξινόμηση

users users users

Αποτέλεσμα ταξινόμησης SVM πρίν την εφαρμογή του αλγορίθμου AML (87.58%) (αριστερά) και μετά (88.35%) (δεξιά)

Προτεινόμενη μεθοδολογία για αυτόματη παραμετροποίηση

users

Αυτόματη παραμετροποίηση

users users users

Αποτέλεσμα ταξινόμησης SVM πρίν την εφαρμογή του αλγορίθμου AML (89.1%) (αριστερά) και με αυτόματη παραμετροποίηση μαζί με AML (92.53%) (δεξιά)

Πολυκλιμακωτή κατάτμηση εικόνας με ολοκλήρωση μεθόδων ανίχνευσης ακμών

Multiscale Segmentation and Classification of Remote Sensing Imagery with Advanced Edge and Scale-Space Features (2013)

Στόχος

  • Διερεύνηση σύγχρονων τεχνικών ανίχνευσης γραμμικών χαρακτηριστικών
  • Ολοκλήρωση κατάτμησης εικόνας με προηγμένες μεθόδους ανίχνευσης ακμών
  • Ολοκλήρωση των μεθόδων κλίμακας-χώρου με τεχνικές ανίχνευσης γραμμικών χαρακτηριστικών

Εξαγωγή γραμμικών χαρακτηριστικών

  • Η εξαγωγή πρωτογεννών χαρακτηριστικών (καμπύλες, ακμές, γραμμές, κλπ) είναι μια βασική διαδικασία χαμηλού επιπέδου στο ανθρώπινο σύστημα όρασης
  • Τα χαρακτηριστικά αυτά παρέχουν πολύ σημαντική πληροφορία για το σχήμα των σημασιολογικών αντικειμένων σε εικόνες
  • Πολλά σχήματα μπορούν να περιγραφούν έστω και κατά προσέγγιση από ευθείες και κατ' επέκταση από ακμές
  • Στα πλαίσια της διατριβής, υλοποιήθηκε εξαγωγή χαρακτηριστικών ακμών με τον αλγόριθμο του Canny αλλά και από τον πολύ σύγχρονο και επιτυχημένο αλγόριθμο Line Segment Detector (LSD)
  • Το κοινό χαρακτηριστικό τους είναι η δυνατότητα εξαγωγής γραμμικών χαρακτηριστικών πάχους ενός εικονοστοιχείου από τηλεπισκοπικές απεικονίσεις

Ανίχνευση ακμών σε εικόνες κλίμακας-χώρου

  • Αρχικά διερευνήθηκε ο αλγόριθμος Canny
  • Εφαρμόστηκε ανισοτροπικό φιλτράρισμα πρίν την εξαγωγή ακμών

users users users users

Αριστερά πρός δεξιά: Αρχική εικόνα από αερομεταφερόμενο σαρωτή, αποτελέσματα αλγορίθμου Canny σε κλίκαμες 10, 50, 100 του AML

Εξαγωγή γραμμικών χαρακτηριστικών

Ο αλγόριθμος Line Segment Detector:

  • Ξεκινά υπολογίζοντας τη διεύθυνση της ακμής σε επιπεδο εικονοστοιχείου και δημιουργώντας ένα αντίστοιχο πεδίο
  • Σε αυτό το πεδίο πραγματοποιείται κατάτμηση και προκύπτουν συνδεδεμένες περιοχές που μοιράζονται την ίδια διεύθυνση ακμής (μέχρι ένα σημείο απόκλισης)
  • Εφόσον ελέγξει εαν οι συνδεδεμένες περιοχές είναι ευθυγραμμισμένες σωστά, μια επιλογή από σημασιολογικά χαρακτηριστικά παράγεται σαν τελικό αποτέλεσμα

Αποτελέσματα ανίχνευσης ακμών

users users users

Αριστερά πρός δεξιά: Αρχική εικόνα, αποτέλεσμα LSD και αποτέλεσμα Canny σε κλίμακα AML 100

MSEG βασισμένος στις ακμές

  • Ο αλγόριθμος MSEG βελτιώθηκε ώστε να μπορεί να χρησιμοποιήσει και γραμμικά χαρακτηριστικά για την κατάτμηση της εικόνας σε πρωτογεννή αντικείμενα
  • Πραγματοποιούνται διαδοχικές συνενώσεις αντικειμένων, ξεκινώντας από τα εικονοστοιχεία, με τρόπο τέτοιο ώστε η τοπικη ετερογένεια να μειώνεται (με κριτήρια φασματικά και γεωμετρικά)
  • Κατά τη διαδικασία αυτή η πληροφορία ακμών χρησιμοποιείται σαν απαράβατο όριο
  • Μετά τη σύγκλιση του αλγορίθμου κατάτμησης, τα εικονοστοιχεία που είναι πάνω σε ακμή, δεν έχουν συνενωθεί
  • Σε ένα τελευταίο βήμα ένωσης περιοχών, λαμβάνεται η απόφαση σε ποιο γειτονικό αντικείμενο θα ενσωματωθούν οι ακμές
  • Η επιλογή αυτή γίνεται με ιστορικό κριτήριο: τα γειτονικά εικονοστοιχεία ακμών προτιμάται να ενωθούν μαζί στο ίδιο αντικείμενο ώστε να διασφαλίζεται η ευθύτητα των ορίων

Αποτελέσματα με ακμές Canny

users users users

Αριστερά πρός δεξιά: Αρχική εικόνα, εξαγωγή ακμών Canny, κατάτμηση edge-enhanced MSEG (κλίμακα 100)

Τελευταία επανάληψη αλγορίθμου

users users

Αριστερά πρός δεξιά: Αποτέλεσμα αλγορίθμου MSEG όπως έχει συγκλίνει (χωρίς να ενωθούν οι ακμές), τελικό αποτέλεσμα μετά το τελευταίο βήμα συνένωσης

Αποτελέσματα με ακμές LSD

users users users

Αριστερά πρός δεξιά: Αρχική είκόνα, αποτέλεσμα LSD, αποτέλεσμα κατάτμησης με κλίμακα 50

Σύγκριση αλγορίθμων κατάτμησης

users users users users

Αριστερά πρός δεξιά, κατάτμηση με: MSEG, Mean-Shift, Baatz-Shape, MSEG με LSD

Σύγκριση αλγορίθμων κατάτμησης - SAR

users users users users

Αριστερά πρός δεξιά, κατάτμηση με: Mean-Shift, Watershed, MSEG, MSEG με Canny

Σύγκριση αλγορίθμων κατάτμησης - Landsat

users users users users

Αριστερά πρός δεξιά, κατάτμηση με: MSEG, Mean-Shift, Baatz-Shape, MSEG με Canny

Σύγκριση αλγορίθμων κατάτμησης - Landsat

users users users users

Αριστερά πρός δεξιά, κατάτμηση με: MSEG, Canny, MSEG με Canny (κλίμακα 100), MSEG με Canny (κλίμακα 400)

Σύγκριση αλγορίθμων κατάτμησης - Hyperspectral

users users users

users users users

Πάνω: αρχική εικόνα CASI, Mean-Shift, Watershed

Κάτω: MSEG, MSEG με AML, edge-MSEG με AML

Αντικειμενοστρεφής Ανάλυση Εικόνας με Μηχανές Διανυσμάτων Συνάφειας

Relevance Vector Machines for Object-Based Image Analysis (2014)

Στόχος

  • Διερεύνηση της μεθοδολογίας των RVM στην Αντικειμενοστρεφή Ανάλυση Εικόνας
  • Υποστήριξη μεθόδων υπολογιστικής νοημοσύνης που να υποστηρίζουν την έννοια της αβεβαιότητας (uncertainty)
  • Συγκριση RVM και SVM

Μηχανές Διανυσμάτων Συνάφειας

  • Οι Μηχανές Διανυσμάτων Συνάφειας ή Relevance Vector Machine (RVM) παρουσιάστηκαν από τον Tipping το 2001
  • Είναι μια πρωτοποριακή προσέγγιση για προβλήματα ταξινόμησης (classification) και παλινδρόμησης (regression), επεκτείνοντας τα SVM χρησιμοποιώντας την θεωρία πιθανοτήτων (Bayessian)
  • Μόλις τα τελευταία χρόνια τα RVM ξεκίνησαν να χρησιμοποιούνται σαν ταξινομητές στην Τηλεπισκόπηση
  • Υπάρχουν λίγες αναφορές στη βιβλιογραφία και όλες είναι με βάση το εικονοστοιχείο

Μηχανές Διανυσμάτων Συνάφειας

  • Τα πρώτα αποτελέσματα έχουν δείξει ότι τα RVM υπερτερούν σε αραιότητα (sparseness) ενώ προσφέρουν αποτελέσματα του ίδιου επιπέδου ακρίβειας
  • Τα RVM σε αντίθεση με τα SVM δεν απαιτούν τον καθορισμό παραμέτρων
  • Λειτουργούν πολύ καλά και σε πολυ μικρό αριθμό δειγμάτων
  • Παρέχουν υπολογισμό της εκ των υστέρων πιθανότητας (posterior probability)
  • Κάθε αντικείμενο που ταξινομείται λαμβάνει μια τιμή που κυμαίνεται από το 0 έως το 1 για κάθε πιθανή κατηγορία

RVM και Τηλεπισκόπηση

  • Χρησιμοποιούνται κυρίως σαν μεθοδολογία παλινδρόμησης για υπερφασματικά δεδομένα
  • Τελευταία υπάρχουν αναφορές και για χρήση τους στην ταξινόμηση υπερφασματικών δεδομένων
  • Όπως και τα SVM, μπορούν να ταξινομήσουν με άριστο τρόπο χώρους προτύπων μεγάλων διαστάσεων

Αρχές λειτουργίας RVM

  • Όπως και με τα SVM, η πρόβλεψη του αποτελέσματος t είναι γραμμικός συνδιασμός βασικών συναρτήσεων Φ(x)
    users
  • Δεδομένου του χώρου προτύπου Χ και των κατηγοριών Τ, προσπαθούμε να προβλέψουμε τις τιμές t για κάθε νέο x που μας παρουσιάζεται. Η μοντελοποίηση της δεσμευμένης κατανομής είναι:
    users
  • Η συνάρτηση πιθανοφάνειας ορίζεται:
    users

Αρχές λειτουργίας RVM

  • Θεωρώντας ένα σύνολο υπερπαραμέτρων α και βαρών w, η βελτιστοποίηση του μοντέλου γίνεται με την αναλυτική συνέλιξη του τύπου
    users
  • Στην περίπτωση της ταξινόμησης η συνάρτηση πιθανοφάνειας παίρνει τη μορφή:
    users
  • όπου:
    users
  • Δεν υπάρχει αναλυτική λύση παρά μόνο προσεγγιστική

Αντικειμενοστρεφής ταξινόμηση με RVM

  • Υλοποιήθηκε ο αλγόριθμος RVM σε C++
  • Τα πρωτογεννή αντικείμενα λαμβάνονται από τον τροποποιημένο αλγόριθμο MSEG με την ενσωμάτωση της πληροφορίας των ακμών
  • Τα πρωτογεννή αντικείμενα και τα χαρακτηριστικά τους αποθηκεύονται σε μια χωρική βάση δεδομένων, δημιουργώντας το χώρο προτύπων
  • Επιλέγεται σύνολο δειγμάτων
  • Το μοντέλο RVM εκπαιδεύεται χωρίς την ανάγκη προσδιορισμού παραμέτρων και επομένως χωρίς διαδικασία cross-validation
  • Γίνεται πρόβλεψη/ταξινόμηση (prediction) για όλα τα αντικείμενα της εικόνας

Αποτελέσματα

users users users

Αριστερά προς δεξιά: Αρχική πολυφασματική απεικόνιση, γραμμικά χαρακτηριστικά LSD, αποτέλεσμα κατάτμησης MSEG

Αποτελέσματα

users users

Αριστερά: Αποτέλεσμα ταξινόμησης SVM (ακρίβεια 91.34%)

Δεξιά: Αποτέλεσμα ταξινόμησης RVM (ακρίβεια 87.90%)

users

Αποτελέσματα

users users users

Αριστερά προς δεξιά: Αρχική πολυφασματική απεικόνιση Landsat TM, γραμμικά χαρακτηριστικά LSD, αποτέλεσμα κατάτμησης MSEG

Αποτελέσματα

users users

Αριστερά: Αποτέλεσμα ταξινόμησης SVM (ακρίβεια 87.64%)

Δεξιά: Αποτέλεσμα ταξινόμησης RVM (ακρίβεια 85.79%)

users

Αποτελέσματα

  • Όπως και στις περιπτώσεις ταξινομήσεων με εικονοστοιχεία, οι ακρίβειες του RVM υπολοίπονται κατά λίγο αυτών του SVM
  • Χρησιμοποιείται αισθητά μικρότερος αριθμός Relevance Vectors (λιγότερο από τα μισά Support Vectors)
  • Η εκ των υστέρων πιθανότητα κάθε αντικειμένου της εικόνας να ανήκει σε κάποια κατηγορία παρέχεται σαν αποτέλεσμα
  • Επιλέγεται σαν αποτέλεσμα της ταξινόμησης η κατηγορία με τη μεγαλύτερη πιθανότητα
  • Η πιθανότητα της νικήτριας κατηγορίας αποθηκεύεται στην χωρική βάση δεδομένων

Αντικειμενοστρεφής Ανάλυση Εικόνας με Υπολογιστική Νοημοσύνη και Έμπειρα Συστήματα

Integrating Knowledge-based Expert Systems and Advanced Machine Learning for Object-based Image Analysis (2014)

Στόχος

Στα πλαίσια αυτής της διατριβής, υλοποιήθηκε ένα πλαίσιο αντικειμενοστρεφούς ανάλυσης εικόνας με την ολοκλήρωση:

  • Προηγμένων μεθόδων υπολογιστικής νοημοσύνης (SVM, RVM)
  • Ενός υβριδικού αλγορίθμου πολυκλιμακωτής συνένωσης περιοχών με τη χρήση ακμών (MSEG)
  • Προηγμένων τεχνικών όρασης υπολογιστών με μη γραμμικές αναπαραστάσεις χώρου-κλίμακας (AML) και
  • Ενός συστήματος βασισμένου στη γνώση (Knowledge-Based Expert System) (CLIPS)

Έμπειρα Συστήματα

Στην τεχνητή νοημοσύνη, τα Έμπειρα Συστήματα είναι υπολογιστικά συστήματα που είναι σχεδιασμένα να εξομοιώνουν τις διαδικασίες λήψης αποφάσεων και λύσης προβλημάτων του ανθρώπου, σε περιορισμένο πεδίο της επιστήμης

Ιδιότητες Εμπείρων Συστημάτων:

  • Εξομοιώνουν την ανθρώπινη συλλογιστική και όχι μόνο το πεδίο γνώσης
  • Υλοποιούν συλλογιστική πάνω σε αναπαραστάσεις της ανθρώπινης γνώσης
  • Λύνουν προβλήματα με ευρετικούς κανόνες ή/και προσεγγιστικές μεθόδους
  • Παρέχουν ευκολία προτυποποίησης: νέοι κανόνες μπορούν να προστεθούν σε υπάρχουσες βάσεις γνώσης
  • Επιτρέπουν την συνδιαστική χρήση γνώσης που έχει αναπαρασταθεί σε διαφορετικά πεδία γνώσης

Αρχιτεκτονική Εμπείρων Συστημάτων

Τα Έμπειρα Συστήματα αποτελούνται από:

  • Τη Βάση Γνώσης (Knowledge Base), που είναι μια συλλογή από γεγονότα (facts, δεδομένα) και κανόνες που προέρχονται από κάποιον έμπειρο στο υπο διερεύνηση αντικείμενο. Οι κανόνες έχουν την μορφή δηλώσεων IF-THEN
  • Την μηχανή συλλογιστικής (Inference Engine), που είναι ο επεξεργαστής που εφαρμόζει τους κανόνες στα δεδομένα ώστε να συνάγει τα συμπεράσματα ή να παράγει νέα δεδομένα
  • Η διεπαφή του χρήστη (User Interface)

Μεθοδολογία

Η μετα-ταξινόμηση είναι μια ευρέως διαδεδομένη διαδικασία στην αντικειμενοστρεφή ανάλυση εικόνας. Εδώ υλοποιείται με:

  • Ταξινομητές υπολογιστικής νοημοσύνης
  • Με ένα σύστημα βασισμένο στη γνώση
  • Με μια χωρική βάση δεδομένων για την χωρική ανάλυση των αντικειμένων της εικόνας

Μεθοδολογία

users

Μεθοδολογία

  • Ο αλγόριθμος κατάτμησης MSEG παρέχει τα πρωτογεννή αντικείμενα
  • Τα πρωτογεννή αντικείμενα της εικόνας (με τα υπολογισμένα χαρακτηριστικά τους) αποθηκεύονται στην χωρική βάση δεδομένων (PostGIS, SpatiaLite)
  • Οι αλγόριθμοι υπολογιστικής νοημοσύνης παρέχουν το πρώτο βήμα της φασματικής επιβλεπόμενης ταξινόμησης στις βασικές κατηγορίες
  • Τα αποτελέσματα της ταξινόμησης αποθηκεύονται στη χωρική βάση δεδομένων
  • Ο χρήστης υλοποιεί κανόνες στο περιβάλλον της CLIPS
  • Τα αντικείμενα της εικόνας ταξινομούνται με βάση τους κανόνες απευθείας πάνω στη βάση δεδομένων
  • Το τελικό αποτέλεσμα της ταξινόμησης είναι διαθέσιμο μέσω GIS ή διαδικτυακών υπηρεσιών OGC

Αποτελέσματα

users users

Αριστερά: Αποτέλεσμα ταξινόμησης SVM (ακρίβεια 91.34%)

Δεξιά: Αποτέλεσμα μετα-ταξινόμησης CLIPS (ακρίβεια 91.76%)

users

Αποτελέσματα


(defrule fix-tile-roofs
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (mean-1 ?blue)
                        (compactness ?cmp)
                        (class-id 2)
                )
        (test (< ?blue 48.0))
        (test (> ?cmp 800.0))
        =>
        (send ?seg put-class-id 4)
)

(defrule fix-tile-roofs2
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (compactness ?cmp)
                        (class-id 2)
                )
        (test (> ?cmp 2000.0))
        =>
        (send ?seg put-class-id 4)
)

(defrule fix-tile-roofs3
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (mean-1 ?blue)
                        (class-id 2)
                )
        (test (< ?blue 34.0))
        =>
        (send ?seg put-class-id 4)
)
                

Βάση γνώσης CLIPS που χρησιμοποιήθηκε

Αποτελέσματα

users users

Αριστερά: Αποτέλεσμα ταξινόμησης SVM (ακρίβεια 87.64%)

Δεξιά: Αποτέλεσμα μετα-ταξινόμησης CLIPS (ακρίβεια 88.13%)

users

Αποτελέσματα


(defrule fix-waterbodies1
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (class-id 4)
                        (mean-1 ?blue)
                        (mean-5 ?mir)
                        (mean-4 ?nir)
                )
        (test (< ?blue 70.0))
        (test (> ?mir 30.0))
        =>
        (send ?seg put-class-id 3)
)

(defrule fix-waterbodies2
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (class-id 4)
                        (mean-1 ?blue)
                        (mean-5 ?mir)
                        (mean-4 ?nir)
                )
        (test (> ?nir 130.0))
        (test (> ?mir 30.0))
        =>
        (send ?seg put-class-id 2)
)
                

Βάση γνώσης CLIPS που χρησιμοποιήθηκε

Υλοποίηση

users

Υλοποίηση

Η υλοποίηση βασίζεται σε πλατφόρμα τριών επιπέδων:

  • Τη χωρική βάση δεδομένων (PostGIS ή SpatiaLite)
  • Την αντικειμενοστρεφή γλώσσα Python
  • Μια διασύνδεση της βιβλιοθήκης CLIPS (σε γλώσσα C) για την Python (PyCLIPS)

Υλοποίηση

Bιβλιοθήκες ελεύθερου λογισμικού:

  • MSEG C++ library
  • cvAML C library
  • Orfeo Toolbox C++ library
  • LibSVM C library
  • ITK C++ library
  • Psycopg Python library
  • DLib C++ library

Υλοποίηση

Ο αλγόριθμος MSEG δημιουργεί αυτόματα τον ορισμό των αντικειμένων της εικόνας σε CLIPS:


(defclass IMG_OBJECT (is-a USER) (role concrete)
        (slot id (type INTEGER))
        (slot area (type INTEGER))
        (slot perimeter (type INTEGER))
        (slot compactness (type FLOAT))
        (slot mean-1 (type FLOAT))
        (slot mean-2 (type FLOAT))
        (slot mean-3 (type FLOAT))
        (slot mean-4 (type FLOAT))
        (multislot neighbors)
        (slot class-id (type INTEGER))
        (slot classification (type SYMBOL))
)
                

Υλοποίηση

Το υλοποιημένο σύστημα διαβάζει όλα τα διανυσματικά αντικείμενα από τη βάση δεδομένων και δημιουργεί αναπαραστάσεις στην Python:


def load_objects_from_database():
    conn = db.connect("segments.db")
    conn.row_factory = db.Row
    cur = conn.cursor()
    SQL = "select * from Level"
    cur.execute(SQL)
    while True:
        r = cur.fetchone()
        if not r:
            conn.close()
            break
        res = {
            'id': clips.Integer(r['ID']),
            'area': clips.Integer(r['AREA']),
            'perimeter': clips.Integer(r['PERIMETER']),
            'compactness': clips.Float(r['COMPACTNESS']),
            'mean-1': clips.Float(r['MEAN1']),
            'mean-2': clips.Float(r['MEAN2']),
            'mean-3': clips.Float(r['MEAN3']),
            'mean-4': clips.Float(r['MEAN4']),
            'class-id': clips.Integer(r['CLASS'])
        }
        c = clips.FindClass("IMG_OBJECT")
        i = clips.BuildInstance(str(r['ID']), c)
        for k in res.keys():
            i.Slots[k] = res[k]
                

Υλοποίηση

Η βάση γνώσης ενεργοποιείται και εκτελεί τους κανόνες:


clips.Load("rules.clp")
clips.Reset()
create_objects_from_database()
clips.Run()
save_classification_results_to_database()
                

Υλοποίηση

Τα αποτελέσματα γράφονται απευθείας στη χωρική βάση δεδομένων ενημερώνοντας τα σχετικά πεδία των πινάκων. Ακολουθεί ένα παράδειγμα κανόνα ταξινόμησης με βάση το δείκτη βλάστησης NDVI:


(defrule find-vegetation
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (mean-4 ?nir)
                        (mean-3 ?red)
                )
        (test (> (/ (- ?nir ?red) (+ ?nir ?red 0.0001)) 0.0))
        =>
        (send ?seg put-classification "Vegetation")
        (send ?seg put-class-id 1)
)
                

Υλοποίηση

Το πλεονέκτημα της αρχιτεκτονικής είναι ότι μπορεί να υλοποιεί χωρική ανάλυση σε πολλαπλά επίπεδα κατάτμησης που αποθηκεύονται σε διαφορετικούς πίνακες της βάσης (GIS layers). Τα χωρικά ερωτήματα εκτελούνται απευθείας μέσα στην CLIPS:


(defrule find-vegetation-intersecting
        ?seg <- (object
                        (is-a IMG_OBJECT)
                        (id ?id)
                )
        (test (> (python-call py_find_vegetation ?id) 0))
        =>
        (send ?seg put-classification "Vegetation")
)
                

Υλοποίηση

Και η αντίστοιχη υλοποίηση του ερωτήματος σε Python και SQL:


def py_find_vegetation(id):
    con = psycopg2.connect(database='testdb', user='user') 
    cur = con.cursor()
    SQL = "SELECT ST_Intersection(cur.the_geom,ab.the_geom), cur.id " 
    "FROM level_one as cur, level_two as ab WHERE cur.id = '%s'" 
    "AND ab.class = 'Vegetation'" % (str(id))
    cur.execute(SQL)          
    r = cur.fetchone()
    if r:
        return 1
    else:
        return 0
                

Συμπεράσματα

Συμπεράσματα

  • Υλοποιήθηκε μια προηγμένη μεθοδολογία αντικειμενοστρεφούς ανάλυσης εικόνας και αξιολογήθηκε σε ποικιλία τηλεπισκοπικών δεδομένων
  • Σε αντίθεση με προηγούμενες μεθόδους, η ενσωμάτωση μεθόδων κλίμακας-χώρου παρείχε τη δυνατότητα απαλαγής από επίπονες διαδικασίες βελτιστοποίηση παραμέτρων κατάτμησης
  • Ενσωματώθηκαν με επιτυχία μέθοδοι όραση υπολογιστών με πολύ καλά αποτελέσματα στην κατάτμηση εικόνας
  • Οι μεθοδολογίες SVM και RVM υλοποιήθηκαν για πρώτη φορά στα πλαίσια της OBIA
  • Η ταξινόμηση με SVM παρουσίασε τα καλύτερα ποιοτικά και ποσοτικά αποτελέσματα, επικρατώντας παλιότερων μεθοδολογιών
  • Οι μεθοδολογίες SVM και RVM είναι επιτυχείς ακόμα και σε περιπτώσεις που τα δείγματα εκπαίδευσης είναι λίγα

Συμπεράσματα

  • Σε επίπεδο κατάτμησης, η προτεινόμενη μεθοδολογία παρείχε καλύτερα αποτελέσματα από προηγούμενες μεθόδους πολυκλιμακωτής κατάτμησης τηλεπισκοπικών εικόνων
  • Με τα RVM, AML η βελτιστοποίηση παραμέτρων δεν είναι απαραίτητη
  • Η ιδιότητα των RVM να παρέχουν εκ των υστέρων πιθανότητες είναι ιδιαίτερα χρήσιμη για συνεργασία με άλλα συστήματα ταξινόμησης

Συμπεράσματα

  • Επιτυχής ολοκλήρωση συστημάτων βασισμένων στη γνώση με την μεθοδολογία OBIA
  • Τα Έμπειρα Συστήματα έχουν το πλεονέκτημα της επεκτασιμότητας, της αναπαράστασης της γνώσης και της συναγωγής
  • Ενσωματώθηκαν στην CLIPS οι χωρικοί τελεστές μέσω χωρικής βάσης δεδομένων

Συμπεράσματα

  • Η ολοκλήρωση της φωτοερμηνευτικής γνώσης σε συστήματα ανάλυσης εικόνας μπορούν να βελτιώσουν σημαντικά τα αποτελέσματα των ταξινομήσεων, ακόμα και με μικρό αριθμό κανόνων
  • Δεν υλοποιήθηκε κάποια μεγάλη εφαρμογή Έμπειρου Συστήματος (με εκατοντάδες ή χιλιάδες κανόνες)
  • Η ολοκλήρωση υπολογιστικής νοημοσύνης και εμπείρων συστημάτων στην ανάλυση εικόνας λύνει το πρόβλημα της ταξινόμησης συνδιαστικά: Επιβλεπόμενη ταξινόμηση όταν δεν μπορούν να εκφραστούν κανόνες από τους χρήστες του συστήματος

Συνεισφορά διατριβής

  • Τρία (3) κεφάλαια σε βιβλία τηλεπισκόπησης
  • Μια (1) δημοσίευση σε περιοδικό
  • Δυο (2) επερχόμενες δημοσιέυσεις σε περιοδικό
  • Τρείς (3) δημοσιεύσεις σε συνέδρια με κριτές
  • Πάνω από 130 αναφορές εκ των οποίων πάνω από 50 για το κεφάλαιο των SVM

Προοπτικές

  • Διερεύνηση μεθοδολογίας σε εφαρμογές Τηλεπισκόπησης
  • Διερεύνηση νέων μεθόδων υπολογιστικής νοημοσύνης όπως Ensembles και Random Forests
  • Διερεύνηση ασαφών SVM
  • Διερεύνηση μη επιβλεπόμενων τεχνικών ταξινόμησης

Προοπτικές - Γνώραση

http://www.youtube.com/watch?v=Pqf3_-QrXZg

May the source be with you...



Πηγαίος κώδικας, Wiki στο GitHub

https://github.com/kalxas/mseg


https://github.com/kalxas/cvAML


https://github.com/kalxas/gnorasi


Η παρουσίαση είναι διαθέσιμη στο:

http://aiolos.survey.ntua.gr/phd/presentation


Σας ευχαριστώ

Ερωτήσεις;