THMMY.gr

Μαθήματα Κύκλου Ηλεκτρονικής & Υπολογιστών => Αναγνώριση Προτύπων => Topic started by: Exomag on November 26, 2015, 19:25:28 pm

Title: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on November 26, 2015, 19:25:28 pm

Το παρόν topic είναι για συζήτηση σχετικά με την 2η εργασία του μαθήματος. Stay on topic!

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on November 26, 2015, 19:26:12 pm

Quote from: Exomag on November 26, 2015, 19:23:51 pm

Εκφώνηση 2ης εργασίας
26 Νοε 2015 11:08 πμ
Διαμαντόπουλος

Στην Ενότητα "Υλικό Μαθήματος" -> "Εργασίες Μαθήματος" -> "Ομαδοποίηση - Δεύτερη εργασία" θα βρείτε την εκφώνηση της 2ης εργασίας του μαθήματος.
Υπενθυμίζεται ότι άμεσα πρέπει να δηλωθείτε στην εργασία ("Υποβολή Εργασιών" -> "Ομαδοποίηση").

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on November 30, 2015, 16:41:11 pm

καταρχάς είναι λογικό να crashάρει το matlab όταν κάνω import το datashet; φαντάζομαι ναι γιατί είναι κτήνος. μετά τι; μονόδρομος να το σπάσω σε κομμάτια;

για το edit του dataset (διαγραφή λέξεων, δημιουργία νέων κατηγοριών κλπ) ποιο είναι το καλύτερο περιβάλλον; το workspace του matlab, το excell ή κάποιο άλλο εργαλείο; (σε συνάρτηση προφανώς με το να μην κρασάρει κάθε τρεις και λίγο)

γενικά αν έχει κάποιος παιδευτεί με το θέμα κι έχει χρήσιμα συμπεράσματα ας τα πασάρει εδώ

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on November 30, 2015, 16:48:56 pm

Quote from: απλυτος on November 30, 2015, 16:41:11 pm

Προσωπικά δεν μου crashάρει, απλά αργεί μέχρι να φορτώσει τόσο όγκο δεδομένων (συγεκριμένα το dataset είναι ένας πίνακας 80x110000 περίπου).

Σχετικά με την επεξεργασία του dataset, σε Matlab δεν είναι ιδιαίτερα δύσκολο να επεξεργαστείς όπως θες τα δεδομένα (και πάλι η επεξεργασία παίρνει αρκετή ώρα/πόρους), οπότε υποθέτω και σε R/Python θα είναι μια απ' τα ίδια. Σε Weka δεν ξέρω, γιατί δεν έχω ασχοληθεί με το πρόγραμμα.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: teslaaaa on November 30, 2015, 16:51:52 pm

Quote from: απλυτος on November 30, 2015, 16:41:11 pm

ναι είναι απόλυτα λογικό!και σε εμάς πέρσι κράσαρε!
εγώ λέω ή να το σπάσεις σε μικρότερα κομμάτια ή να μην το κάνεις import από το γραφικό περιβάλλον. Χρησιμοποίησε καλύτερα καμία συνάρτηση πχ. csvread (http://www.mathworks.com/help/matlab/ref/csvread.html) αν έχεις σαν delimeter to ','
Τώρα για επεξεργασία, το weka φαντάζομαι ενδείκνυται για πιο μπακάλικη δουλειά, αλλιώς μπορείς να χρησιμοποιήσεις R/R Studio αν και θέλει κάποιο χρόνο η εκμάθηση του
Επίσης πριν το διαβάσεις πχ. στο ματλαμπ δες άμα η μορφή των δεδομένων είναι ομοιόμορφη και δεν θα σου χτυπήσει κανένα σφάλμα, πχ. τίποτα αυτάκια και τέτοια μπορεί να προκαλούν πρόβλημα. Αυτά και με plain text editor μπορείς να τα διορθώσεις
Στο excel όταν τα ανοίγετε να προσέχετε γιατί μπορεί να μορφοποιήσει κάποια στήλη αυτόματα σε συγκεκριμένο τύπο δεδομένων και επομένως να αλλάξει την αρχική μορφή τους

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on November 30, 2015, 20:07:43 pm

Quote from: teslaaaa on November 30, 2015, 16:51:52 pm

Quote from: απλυτος on November 30, 2015, 16:41:11 pm

σε πόσο μικρότερα κομμάτια; ας πούμε σπάζοντάς το στα 4 δεν άλλαξε και πολλά- πάλι κρασάρει. επίσης χειροκίνητα - μέσω text editor - μπορώ να το σπάσω μόνο σε ομάδες από γραμμές κι όχι ομάδες από στήλες σωστά;

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: MG9S on December 01, 2015, 19:47:14 pm

Παιδια τι μπορούμε να κάνουμε όσο αφορά τις στήλες του αρχείου ?? Σε όποιο προγραμμα βάλουμε τα αρχεία κρασάρουνε. Υπάρχει κάποιο hint? Οσο αφορά τις γραμμες χρησιμοποιήσαμε την εντολή split απο τερματικό

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on December 03, 2015, 18:14:49 pm

Quote from: MG9S on December 01, 2015, 19:47:14 pm

εμένα το matlab μου τα ανοιξε με τα πολλα. αλλιώς δεν ξέρω πως.

το matlab έχει εργαλείο αντίστοιχο του class to cluster evaluation που έχει το weka; δλδ να του δίνεις τις πραγματικές κλάσεις του κάθε instance και να αξιολογεί το clustering που έκανε με βάση αυτές. με ψάξιμο που έκανα δε βρήκα κάποια έτοιμη συνάρτηση να το κάνει, πράγμα που μου φαίνεται περίεργο. αν ξέρει κάποιος κάτι παραπάνω (και γενικότερα για το evaluation στο matlab) θα ήταν πολύ χρήσιμο

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Σα τανυστής on December 03, 2015, 19:57:24 pm

θα πάρει παράταση η εργασία, περιμενετε σχετική ανακοίνωση

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: MG9S on December 03, 2015, 20:01:47 pm

Quote from: απλυτος on December 03, 2015, 18:14:49 pm

Quote from: MG9S on December 01, 2015, 19:47:14 pm

Βασικά μετά απο δοκιμές που κάναμε μετατρέψαμε τις στήλες σε γραμμές. Για να έχουμε όλα τα δεδομένα στα προγραμματα και να μην κολλάνε. Δεν ξέρω όμως κατα πόσο μπορεί να βοηθήσει στην συνέχεια ή αν είναι μ******ες επειδή δεν προχωρήσαμε σε κάτι άλλο για να δουμε αν αξίζει η μετατροπή αυτή

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: rspappas on December 03, 2015, 22:30:53 pm

εγω παιζω με μια λιγο πιο αρπακολα λυση, με bash script.

αρχικα μπορει καποιος να παρει μια συγκεκριμενη στηλη απο ενα csv αρχειο με το παρακατω

Code:

cut -d ';' -fXX dataset.csv

όπου ΧΧ ο αριθμος της στηλης.

και μετα με grep κλπ, πεταω την πολυ σαβουρα (στηλες/λεξεις που εμφανιζονται σε πολυ λιγα ή παρα πολλα προτζεκτ). φευγει ετσι περιπου το 90% των δεδομενων.

ξαναλεω παντως οτι ειναι πολυ αρπακολα λυση, σιγουρα κατι υλοποιημενο σε οποιαδηποτε αλλη κανονικη γλωσσα προγραμματισμου θα ειναι πιο γρηγορο και πιο ευελικτο.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on December 06, 2015, 16:16:05 pm

παίρνουμε πολύ χαμηλά αποτελέσματα σε "accuracy". Το accuracy προφανώς δεν υπάρχει στο clustering, αλλά αν υποθέσουμε ότι το μεγαλύτερο cluster το ονομάζουμε "android" το δεύτερο μεγαλύτερο "clp" κλπ κλπ κλπ και συγκρίνουμε με βάση τις κλάσεις που μας δίνει, έχουμε accuracy περιπου 25%.

είναι επίσης πολύ έντονο το φαινόμενο να φτιάχνει ένα τεράστιο cluster που να έχει πχ. 60/80 βιβλιοθήκες. Είναι λογικά όλα αυτά;

κι έχουμε κάνει αρκετό preproccesing δεν είναι οτι το βάλαμε να τρέξει έτσι γιουχου.

ας πει κάποιος

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: chrisrn on December 07, 2015, 01:26:48 am

Στο weka δεν υπάρχει καλύτερη λύση απ'το να σπάσει σε κομμάτια το σετ?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on December 07, 2015, 03:03:56 am

Quote from: chrisrn on December 07, 2015, 01:26:48 am

Στο weka δεν υπάρχει καλύτερη λύση απ'το να σπάσει σε κομμάτια το σετ?

ανοιξε το dataset με matlab κάνε μια πρωτη πολύ βασική επεξεργασία (πχ αφαίρεσε τις λέξεις που εμφανίζονται σε μια μόνο βιβλιοθήκη που θα σου κάνει τις λέξεις από 110000 περιπου 25000) και ανοιξε μετα το μικροτερο dataset με weka

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: et3rn1ty on December 07, 2015, 10:11:21 am

Σε matlab και python υπάρχει sparse matrix type, οπότε μπορείτε να μετατρέψετε τα δεδομένα. Και για να μην τα φορτώνετε κάθε φορά από το csv, αφού τα μετατρέψετε από dense σε sparse αποθηκεύστε τον sparse σε αρχείο.
Οι περισσότεροι αλγόριθμοι δουλεύουν και σε sparse (όχι όλοι).

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: πρεζ on December 08, 2015, 19:04:51 pm

οταν μετατρεπετε το dataset σε μορφη csv η τελευταια στηλη που σας βγαζει ειναι η "AddList" ?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on December 08, 2015, 19:35:05 pm

Quote from: πρεζ on December 08, 2015, 19:04:51 pm

οταν μετατρεπετε το dataset σε μορφη csv η τελευταια στηλη που σας βγαζει ειναι η "AddList" ?

Δεδομένου ότι οι στήλες είναι με αλφαβητική σειρά, κάτι έχεις κάνει σίγουρα λάθος. Πως το μετατρέπεις;

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: πρεζ on December 08, 2015, 20:30:02 pm

Το εβαλα στο ecxel στ αντιστοιχο του openoffice βσκ..μετα δοκιμασα και με R και κατι εβγαλε και κει απλα δν ειμαι σε pc να τ δω..κανονικα ποια ειναι η τελευταια στηλη?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on December 08, 2015, 21:35:21 pm

Quote from: πρεζ on December 08, 2015, 20:30:02 pm

Η τελευταία αρχίζει από "z" σίγουρα. Το Excel (και λογικά παρόμοια προγράμματα) έχουν περιορισμό στων αριθμό στηλών που δέχονται οπότε κάνει fold, και πάει στις από κάτω γραμμές, λογικά όταν φορτώνεις το αρχείο εκεί.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: rspappas on December 08, 2015, 22:36:28 pm

το excel ανοιγει αρχεια με μαξ 16000 στηλες, το libreoffice με μαξ 1024. και στις δυο περιπτωσεις κοβονται στηλες αν ανοιχτουν με αυτα.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: πρεζ on December 09, 2015, 00:18:44 am

τνξ
οντως κοβουν στηλες excel και παρομοια προγραμματα

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: rspappas on December 10, 2015, 15:23:02 pm

ενας τροπος για να ανοιξεις με εξελ ή αντιστοιχο, ολοκληρο το dataset, ειναι να γινει transpose το csv

υπαρχει ενα cli προγραμματακι που κανει τετοια κολπα, csvtool

Code:

csvtool transpose dataset.csv > dataset-transposed.csv

εχει και αλλα καλουδια το csvtool, για light επεξεργασια ειναι ωραιο.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: rspappas on December 12, 2015, 23:55:09 pm

guys, εχει κανεις καποιο tip για το πως συνεχιζουμε με την επεξεργασια των δεδομενων μετα το αρχικο ξεκαθαρισμα? εμεις εχουμε κολλησει και οποια κινηση κανουμε απο εδω και περα κανει χρηση της γνωσης μας για τις κατηγοριες (πχ κοστη, επιλεκτικη αφαιρεση attributes κλπ), το οποιο δεν πρεπει να γινει, συμφωνα με την εκφωνηση.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: olgatsim on December 22, 2015, 15:16:10 pm

Quote from: rspappas on December 12, 2015, 23:55:09 pm

+1
Κανείς ρε παιδιά? :)

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: RFed the King on January 02, 2016, 14:48:34 pm

Εχει δει κανενας για τη δειγματοληψια????

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: chrisrn on January 02, 2016, 22:11:53 pm

Αν στην ομαδοποίηση υπάρχει μία ομάδα που έχει σχεδόν όλες τις βιβλιοθήκες πως το διορθώνουμε?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: RFed the King on January 04, 2016, 16:58:05 pm

Ξεφτυλα βρε συμεωνιδη
http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf (http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf)

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on January 04, 2016, 23:51:53 pm

Quote from: olgatsim on December 22, 2015, 15:16:10 pm

Quote from: rspappas on December 12, 2015, 23:55:09 pm

+1
Κανείς ρε παιδιά? :)

καλή χρονιά. μετατρέψτε τις απόλυτες συχνότητες εμφάνισης της κάθε λέξης σε σχετικές ανάλογα με το μέγεθος της κάθε βιβλιοθήκης. Από κει και μετά αρχίζει να έχει νόημα το πράμα. Οποιος εχει απορία πάνω σε αυτό ας στείλει pm

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on January 04, 2016, 23:53:15 pm

όταν λέει στον φάκελο με τα παραδοτέα να έχουμε το τελικό μοντέλο τι εννοεί; τι σημαίνει γενικά τελικό μοντέλο στο clustering;

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: teslaaaa on January 05, 2016, 03:46:52 am

Quote from: απλυτος on January 04, 2016, 23:53:15 pm

εκτός από την περίπτωση να τους ξέφυγε από καμιά παλαιότερη εκφώνηση, ίσως να εννοεί πχ. τα κέντρα του κάθε κλάστερ
Άμα ξέρεις αυτά, μετά φαντάζομαι όποιο feature vector και να σου δώσουν μπορείς να το κατατάξεις στο κλάστερ από το κέντρο του οποίου το vector σου απέχει τη μικρότερη απόσταση

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on January 05, 2016, 04:23:27 am

Quote from: teslaaaa on January 05, 2016, 03:46:52 am

Quote from: απλυτος on January 04, 2016, 23:53:15 pm

Δεν είναι τόσο απλό, γιατί εφόσον έχει υπάρξει pre-processing τα feature vectors δεν είναι κάτι μοναδικό.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on January 05, 2016, 18:34:42 pm

Quote from: Exomag on January 05, 2016, 04:23:27 am

Quote from: teslaaaa on January 05, 2016, 03:46:52 am

Quote from: απλυτος on January 04, 2016, 23:53:15 pm

Δεν είναι τόσο απλό, γιατί εφόσον έχει υπάρξει pre-processing τα feature vectors δεν είναι κάτι μοναδικό.

άρα; μεηλάκι για να μάθουμε;

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on January 05, 2016, 18:49:08 pm

Quote from: απλυτος on January 05, 2016, 18:34:42 pm

Quote from: Exomag on January 05, 2016, 04:23:27 am

Quote from: teslaaaa on January 05, 2016, 03:46:52 am

Quote from: απλυτος on January 04, 2016, 23:53:15 pm

Δεν είναι τόσο απλό, γιατί εφόσον έχει υπάρξει pre-processing τα feature vectors δεν είναι κάτι μοναδικό.

άρα; μεηλάκι για να μάθουμε;

Καλό θα ήταν, αν και νομίζω πως αν απλά τους δώσεις τα αποτελέσματα του clustering σου δε θα έχουν θέμα. Αλλά και η επιβεβαίωση από το e-mail δε θα ήταν άσχημη.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: RFed the King on January 05, 2016, 21:37:47 pm

Παιδια sos
Εδω και λιγες μερες προσπαθω να υλοποιησω δειγματοληψια με bootstraping στο matlab ωστα να πάρω νέα datasets.
Εχω δυο αποριες :Ρ
Πρωτον τι ακριβως ειναι το bootstraping με λιγα λογια?
Δευτερον,μπορει κανενας να βοηθησει?
Γενικα η συναρτηση bootstrp του matlab δεν εχω καταλαβει πως λειτουργει και ξερω σιγουρα οτι δεν μπορει να μου επιστρεψει πινακα με τις διαστασεις του dataset.
Ααααν μπορεσει καποιος να βοηθησει θα του ημουν ευγνωμων :)

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: New_Entry on January 05, 2016, 22:38:40 pm

Quote from: Exomag on January 05, 2016, 18:49:08 pm

Quote from: απλυτος on January 05, 2016, 18:34:42 pm

Quote from: Exomag on January 05, 2016, 04:23:27 am

Quote from: teslaaaa on January 05, 2016, 03:46:52 am

Quote from: απλυτος on January 04, 2016, 23:53:15 pm

Δεν είναι τόσο απλό, γιατί εφόσον έχει υπάρξει pre-processing τα feature vectors δεν είναι κάτι μοναδικό.

άρα; μεηλάκι για να μάθουμε;

Αν έχετε απάντηση ως προς αυτό, γράψτε το πλιζ γιατί ήμουν έτοιμη να στείλω μέιλ για το ίδιο πράγμα :P

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on January 05, 2016, 22:44:27 pm

Quote from: New_Entry on January 05, 2016, 22:38:40 pm

Quote from: Exomag on January 05, 2016, 18:49:08 pm

Αν έχετε απάντηση ως προς αυτό, γράψτε το πλιζ γιατί ήμουν έτοιμη να στείλω μέιλ για το ίδιο πράγμα :P

Δεν έχω βρει χρόνο/όρεξη να στείλω e-mail ακόμα, οπότε άμα θέλεις να το αναλάβεις έχεις το ελεύθερο :D

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: New_Entry on January 05, 2016, 23:12:19 pm

Quote from: Exomag on January 05, 2016, 22:44:27 pm

Quote from: New_Entry on January 05, 2016, 22:38:40 pm

Quote from: Exomag on January 05, 2016, 18:49:08 pm

Αν έχετε απάντηση ως προς αυτό, γράψτε το πλιζ γιατί ήμουν έτοιμη να στείλω μέιλ για το ίδιο πράγμα :P

Δεν έχω βρει χρόνο/όρεξη να στείλω e-mail ακόμα, οπότε άμα θέλεις να το αναλάβεις έχεις το ελεύθερο :D

έστειλααα! θα ενημερώσω όταν έχω απάντηση :)

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: New_Entry on January 06, 2016, 12:33:31 pm

Παραθέτω την απάντηση του Θέμη:

"Τέλος, το τελικό μοντέλο αφορά ουσιαστικά την πλήρη περιγραφή των τελικών features, του αλγορίθμου με όλες τις παραμέτρους και της τελικής ομαδοποίησης (το διάνυσμα που αναφέρετε και -αν είναι εφικτό- τα κέντρα των clusters)."

(το διάνυσμα είναι το id, σε ποιο cluster κατατάσσεται η κάθε βιβλιοθήκη)

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Gru on January 06, 2016, 13:32:22 pm

Όταν λέει να εφαρμόσουμε τουλάχιστον 3 σετ παραμέτρων τι εννοεί?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: MG9S on January 06, 2016, 13:41:01 pm

Εγω προσωπικά καταλαμβάινω οτι τρέχεις τον κάθε αλγόριθμο με διαφορετικές παραμέτρους πχ αριθμός cluster
Ας επιβεβαιώση κάποιος αν είναι

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Xleboniaris on January 06, 2016, 20:55:37 pm

Πως αξιολογήσατε τα αποτελέσματα της ομαδοποίησης σας???

Τι εννοώ: Στο clustering όταν δεν έχεις τα σωστά αποτελέσματα (unsupervised), για την αξιολόγηση του μοντέλου σου χρησιμοποιείς μετρικές όπως η Silhouette (διάγραμμα), η cohesion, η separation. Όταν, έχεις όπως εδώ και τα τελικά αποτελέσματα μπορείς να χρησιμοποιήσεις και μετρικές όπως το accuracy, που είναι μετρική supervised clustering. (συγκρίνοντας δηλαδή τα αποτελέσματα του μοντέλου με τα σωστά)

Τι γίνεται στην περίπτωση που έχουμε 2 μοντέλα, εκ των οποίων το πρώτο βγάζει αρκετά καλό διάγραμμα Silhouette, όμως έχει χειρότερο accuracy σε σχέση με το δεύτερο?? Το δεύτερο από την άλλη, ενώ έχει πολύ καλό accuracy όμως το διάγραμμα Silhouette είναι εμφανώς χειρότερο του πρώτου.

Με ποια λογική επιλέγω το καλύτερο από τα δύο. Με βάση ότι η ομαδοποίηση που έχω να κάνω είναι unsupervised, οπότε ρίχνω βαρύτητα στην αντίστοιχη μετρική και χρησιμοποιώ τα τελικά αποτελέσματα για να δω αν έχουν νόημα αυτά π βγάζω??? Η’ μπορώ να χρησιμοποιήσω το accuracy σαν σημαντικότερη μετρική???

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: New_Entry on January 07, 2016, 11:12:49 am

Quote from: Xleboniaris on January 06, 2016, 20:55:37 pm

+1000

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: johnvoyager on January 07, 2016, 15:18:35 pm

παιδιά, εμάς γενικά μας τα βγάζει τα περισσότερα σε ένα cluster, παρ' όλο που κάναμε normalize και θεωρώ πως κάναμε κ πολύ καλό pre-processing.. εσείς γενικά τι αποτελέσματα είχατε ?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: johnvoyager on January 07, 2016, 16:03:09 pm

Πάντως για την μερική Silhouette από ό,τι κατάλαβα από αυτά που διάβασα, την χρησιμοποιείς για να αξιολογίσεις διαφορετικά runs του ίδιου αλγορίθμου και όχι για να συγκρίνεις διαφορετικούς αλγορίθμους..

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: et3rn1ty on January 07, 2016, 18:40:18 pm

To Silhouette δείχνει πόσο μακριά είναι τα clusters μεταξύ τους, όχι πόσο καλό είναι το clustering. Μπορεί το καλό clustering να έχει ξεχωριστά clusters, όμως μπορεί και όχι, ανάλογα το πρόβλημα.

Ένας τρόπος (αν δεν παίξεις με accuracy, completeness και homogeneity που θέλουν labels που υποτίθεται δεν έχουμε) είναι να δεις τις κυρίαρχες λέξεις σε κάθε cluster που προκύπτει, πχ ποια είναι η λέξη με το μεγαλύτερο άθροισμα ή ποιά είναι η λέξη που εμφανίζεται σε όλα τα στοιχεία του cluster?
Μία πιο "technical" λύση στο ίδιο approach είναι να κάνεις πάνω στα clusters Latent Dirichlet Allocation, το οποίο είναι εργαλείο για unsupervised topic discovery σε κείμενο (προορίζεται για φυσική γλώσσα, αλλά εμάς μας έβγαλε ενδιαφέροντα αποτελέσματα).

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: απλυτος on January 07, 2016, 19:15:13 pm

Quote from: New_Entry on January 07, 2016, 11:12:49 am

Quote from: Xleboniaris on January 06, 2016, 20:55:37 pm

+1000

χωρίς να είμαι 100% σίγουρος, νομίζω δεν είναι λογικό ένα καλό accuracy - αυτό το κατά προσέγγιση accuracy τελοσπάντων - να πηγαίνει μαζί με κακό silhouette.

το silhouette δείχνει πόσο καλά διαχωρισμένες είναι οι τελικές σου ομάδες. πως γίνεται να είναι καλά διαχωρισμένες και ταυτόχρονα να είναι δομημένες λάθος (με βάση τις λύσεις που μας δίνει). Με βάση πάντα μια ερμηνεία του silhouette κι όχι απόλυτο νούμερο. (πχ αν μια ομάδα έχει ένα μόνο στοιχείο -που είναι σίγουρα λάθος- βγάζει άψογο silhouette)

κι εμπειρικά, εμένα οι δύο καλές ομαδοποιήσεις που είχα με βάση το "accuracy" είχαν και καλό silhouette και όσο χειρότερες λύσεις έπαιρνα το accuracy έφθινε τελείως αναλογικά.

μιλάω πάντα για το υπάρχον πρόβλημα. σε γενικό επίπεδο, σίγουρα accuracy και silhouette δεν είναι ανάλογα μεγέθη.

ας πει και άλλος άποψη

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Indy on January 07, 2016, 21:13:28 pm

Μπορεί το Weka να υπολογίσει αυτόματα τις μετρικές (SSE, Cohesion, Separation, Silhouette)? Και αν ναι πώς τις εμφανίζει;

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: johnvoyager on January 07, 2016, 21:18:25 pm

Quote from: Indy on January 07, 2016, 21:13:28 pm

Μπορεί το Weka να υπολογίσει αυτόματα τις μετρικές (SSE, Cohesion, Separation, Silhouette)? Και αν ναι πώς τις εμφανίζει;

γενικά όχι, επίσης γενικά για την 2η εργασία το WEKA ήταν άχρηστο, μακάρι να το είχαμε καταλάβει νωρίτερα, με την ομάδα μου καταλήξαμε τελευταία στιγμή να το γυρίσουμε σε matlab

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Gru on January 07, 2016, 21:50:23 pm

Έχει τρέξει κανείς τoν kmeans με περισσότερα από 8 clusters? Και αν ναι μετά τα κάνατε merge?

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: megali mpougatsa on January 07, 2016, 23:59:20 pm

Quote from: johnvoyager on January 07, 2016, 21:18:25 pm

Ακριβώς το ίδιο κι εμείς!!! Παιδευτήκαμε άσκοπα στο $%&*weka και τελευταία στιγμή τα ξανακάναμε όλα στο MATLAB...

Να προτείνουμε στον Συμεωνίδη να το καταργήσει εντελώς από την επόμενη χρονιά... Είναι μια σκέτη ταλαιπωρία χωρίς όφελος... >:(

Ας επιλέξουν Python ή R (ένα απ' τα δυο), ας κάνουν 4 εργαστήρια πάνω σ'αυτό, μπας και μάθουν τίποτα στα σοβαρά τα παιδιά...

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: RFed the King on January 08, 2016, 01:37:30 am

R και μόνο R!!!!!
R R R R R R R R R R R R RR R R R R R R R R R R R

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on January 08, 2016, 01:42:25 am

Όσο μπορείτε μένετε σχετικοί με το θέμα της εργασίας. Τα άσχετα posts θα αφαιρούνται για να είναι πιο ευανάγνωστο και compact το topic.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: megali mpougatsa on January 08, 2016, 02:12:13 am

Ενίσταμαι ως προς την διαγραφή του post μου, το οποίο -πέρα απ' τις φατσούλες- είχε λόγο ύπαρξης καθώς περίμενε αναφορά στα πλεονεκτήματα της R έναντι του Matlab. 8))

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Exomag on January 08, 2016, 02:18:16 am

Quote from: megali mpougatsa on January 08, 2016, 02:12:13 am

Δεκτό, άμα θέλετε κάντε ένα ξεχωριστό topic και συζητήστε (σκοτωθείτε) εκεί για τα πλεονεκτήματα του κάθε εργαλείου :D

Απλά προσπαθώ να κρατήσω τη συζήτηση focused στη συγκεκριμένη εργασία.

Title: Re: [Aναγνώριση Προτύπων] 2η Εργασία 2015-2016
Post by: Dealan on January 08, 2016, 02:46:22 am

Μετά την προθεσμία της εργασίας. :P