WTF??
Data Mining? Emotion detection??
Πολύ αθώα τα βλέπεις ή τα παρουσιάζεις φίλε george88thess... αλλά δε ζούμε σε αγγελικά πλασμένο κόσμο και δεν έχουν όλοι καλές προθέσεις ... Δε θέλω να κάνω δίκη προθέσεων αλλά :
Τα πράγματα δεν είναι τόσο αθώα ή αβλαβή όσο βλέπω οτι πιστεύεις από τα ποστ σου.
1ον) Για να πάρεις την βάση δεδομένων αυτή ή να τηρείς βάση δεδομένων, αυτή και κάθε άλλη που εμπεριέχει προσωπικά δεδομένα,
(και περιέχει μια χαρά μπόλικα προσωπικά δεδομένα Καραμαζόφ) απαιτείται άδεια από την Αρχή Προστασίας Δεδομένων Προσωπικού Χαρακτήρα.
2ον) Θέλω να μου εξηγήσεις λίγο (αν θέλεις) πως πήρες αντίγραφο της βάσης δεδομένων χωρίς να σου το δώσει η ομάδα διαχείρησης.
Υπάρχει κάποιο προγραμματάκι - web crawler ?
3ον) Άλλο τα ποστ όλων μας που είναι όντως δημόσια και τα βλέπει όποιος θέλει στο ίντερνετ, και
άλλο πράγμα να έχεις την ίδια την βάση δεδομένων...
στην οποία μπορείς να τραβάς ότι queries θέλεις... π,χ, Select * from Posts where (UserName = Karaμazoβ and & BoardName = Φιλόσοφοι Μηχανικοί - Μηχανικοί Φιλόσοφοι
& ChildBoardName = Πολιτικά) και να έχεις με μια απλή εντολή μαζεμένες όλες τις πολιτικές απόψεις που εξέφρασε ο Καραμαζόφ...
Θα μου πείτε μα, μπορώ να πάω στο Board και να τις διαβάζω μία μία...
Λάθος.
Γιατί επίσης μπορείς να κάνεις πιο σύνθετο το query και να βάλεις και ένα : ( ... and Post.Text ή πως λέγεται σαν ιδιότητα το πεδίο κειμένου του κάθε post στη βάση δεδομένων του φόρουμ, "ΚΚΕ" "Σαμαράς" "Βενιζέλος" "μνημόνιο" "κεφάλαιο") οπότε πας κατευθείαν στα αντίστοιχα
ποστ του φίλτατου Karaμazoβ που έχουν αυτές τις λέξεις μέσα...
Θα μου πείτε, και με το Google θεωτητικά θα μπορούσα να ψάξω όλα αυτά αλλά το google δε θα σου δώσει και το Email του, και άρα την IP του και άρα την φυσική διεύθυνσή του, και άρα το ονοματεπώνυμό του και άρα και τον αριθμό ταυτότητας, το ΑΦΜ, και άρα και την φορολογική του δήλωση, τα περιουσιακά του στοιχεία, αν έχει και πόσα δάνεια σε τράπεζες, αν έχει πάρει κάποια επιδότηση από κάποιο πρόγραμμα της ΕΕ κτλ κτλ κτλ μέχρι και τι ψωνίζει από τον Μασούτη όταν πάει, και άρα άπειρα χρήσιμα συμπεράσματα για αυτούς που θέλουν να ξέρουν πόσες ακριβώς ντομάτες αγόρασε ο Karaμazoβ πχ. αν αγόρασε φέτα και πόσα γραμμάρια, τι φέτα πήρε, γιατί πήρε Βαλμά και όχι μια πιο φτηνή, αν πήρε ζαμπνόν ή κασέρι, πόσο καφέ αγόρασε και πόση ζάχαρη, ακόμα και αν αγόρασε προφυλακτικά, τι μάρκα ήταν, αν ήταν με ραβδώσεις ή με γεύσεις, πόσο συχνά αγοράζει προφυλακτικά, γιατί τελευταία δεν αγοράζει τόσα προφυλακτικά όσο τον Σεπτέμβριο

, έχει κάτι η Αιμιλία?

:-P
[Το ξεφτίλισα επίτηδες στο τέλος]
Γελάω με το επιχείρημα του george88thess που μας λέει οτι
δεν πρέπει να ανησυχούμε για τα δεδομένα γιατί θα τα έχει μόνο αυτός...Η ασφάλεια δεδομένων είναι πολύ πιο δύσκολη από όσο νομίζεις. Κι αν σου κλέψουν τον υπολογιστή? Και αν γίνουν κι άλλα αντίγραφα της βάσης δεδομένων ? Ποιος μας εγγυάται οτι θα το έχεις μόνο εσύ το αρχείο? Οτι θα σβηστεί μετά την εκπόνηση της έρευνας ?
Δεν αμφιβάλλω οτι γίνεται σοβαρή δουλειά εκεί στο εργαστήριο αλλά το κακό είναι οτι τέτοιου είδους τεχνολογίες στην πραγματικότητα χρησιμοποιούνται και για άλλους λόγους που δεν πολυσκεφτόμαστε είναι η αλήθεια όταν υλοποιούμε τα εργαλεία τα οποία κάποιοι άλλοι θα χρησιμοποιήσουν για να μας εξαθλιώσουν κιάλλο...
Και πάνω από όλα είναι ηλίθιο να αυτοφακελωνόμαστε μόνοι μας... Το κάνουμε ως ένα βαθμό όλοι μας, εν γνώσει μας, γράφοντας, όταν γράφουμε, τις πολιτικές μας απόψεις, αλλά το να τους δώσεις και ολόκληρη τη βάση δεδομένων είναι αυτοφακέλλωμα έτοιμο στο πιάτο... .
Το φακέλωμα που λέτε δυστυχώς αυτά δε γινόταν μόνο παλιά, τότε, επί χούντας... Γίνονται και τώρα, το 2013 Οπότε γινόμαστε τουλάχιστον αφελείς και ευκολόπιστοι, αν λέμε ο,τι αφού "δεν έχω τίποτα να κρύψω", (αφού κυβερνάει το αγαπημένο μου κόμμα π.χ. ή γιατί νομίζω οτι δεν είναι επικίνδυνη η τακτική της μαζικής επεξεργασίας δεδομένων, και άρα όλα καλά... ) ...
Η "ανεξάρτητη" ή πραγματικά ανεξάρτητη σε κάποιες περιπτώσεις
Αρχή Προστασίας Δεδομένων Προσωπικού Χαρακτήρα δεν θεσπίστηκε για πλάκα,
ούτε και επιτρέπει την μαζική επεξεργασία ηλεκτρονικών δεδομένων χωρίς κανένα όρο ή εγγυήσεις. Και
αυτή η βάση δεδομένων είναι τίγκα στα προσωπικά δεδομένα... Αλλά πρέπει να θυμόμαστε... Στον 21ο αιώνα και στη μεταμοντέρνα χούντα Σαμαρά, ξεπεράστηκε η ανάγκη σε ρουφιάνους, περιπτεράδες, καστανάδες και λαχειοπώλες. Τώρα η ρουφιανιά επισημοποιήθηκε και γίνεται δια εγγράφου κοινοποιούμενου από κλητήρα-χωροφύλακαΜη βοηθάμε και μόνοι μας να γίνεται και ηλεκτρονικά και μάλιστα δίνοντας την ίδια την βάση δεδομένων... ___________________________________
Κατά τη διάρκεια της έκτακτης συνεδρίασης της Συγκλήτου του ΕΚΠΑ το πρωί της Τρίτης παρουσιάστηκε, σύμφωνα με πληροφορίες του Tvxs, επίσημο έγγραφο από τη ΓΑΔΑ που υποχρεώνει όσα μέλη συμμετείχαν στην έκτακτη συνεδρίαση της συγκλήτου την Δευτέρα 9 Σεπτεμβρίου, να υπογράψουν σχετικό έγγραφο και να συμπληρώσουν τον αριθμό της αστυνομικής τους ταυτότητας! Της Φωτεινής Λαμπρίδη.
Την προηγούμενη εβδομάδα η Εισαγγελία Αθηνών είχε ζητήσει τα στοιχεία της απεργιακής επιτροπής των διοικητικών υπαλλήλων του Πανεπιστημίου Αθηνών. Το σχετικό έγγραφο (φωτογραφία) υπέγραφε το «2ο τμήμα Προστασίας του Κράτους και του Δημοκρατικού Πολιτεύματος», της υποδιεύθυνσης κρατικής ασφαλείας της ΓΑΔΑ. Με την αναζήτηση των στοιχείων και των μελών της Συγκλήτου, σημείωναν πανεπιστημιακοί κύκλοι, σημειώνεται η τρίτη απειλή δίωξης, μετά από αυτήν των απεργών διοικητικών υπαλλήλων και του πρύτανη Θ. Πελεγρίνη.Στον αντίποδα του κυβερνητικού αυταρχισμού, η νέα ανακοίνωση της Συγκλήτου που εκδόθηκε την Τρίτη, εκφράζει την διάθεση του σώματος για την εξεύρεση λύσεων και την επαναλειτουργία του πανεπιστήμιου από τις 16 Δεκεμβρίου. Καλώντας εμμέσως το υπουργείο, όπως διαφαίνεται στην τελευταία παράγραφο , να επιδείξει διαλλακτικότητα διασφαλίζοντας ήπιο κλίμα χωρίς τις συνεχείς απειλές εναντίον των μελών της πανεπιστημιακής κοινότητας.
Ολόκληρη η ανακοίνωση της Συγκλήτου
Η Σύγκλητος του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών στη σημερινή έκτακτη συνεδρία της 10ης Δεκεμβρίου 2013, συζήτησε το θέμα της λειτουργίας του Πανεπιστημίου και αποφάσισε ομόφωνα τα εξής:
Η Σύγκλητος για άλλη μία φορά επιθυμεί να διατυπώσει με τον πλέον καθαρό τρόπο ότι το Πανεπιστήμιο Αθηνών πρέπει να τεθεί αμέσως σε πλήρη λειτουργία. Για άλλη μία φορά καλεί όλα τα μέλη της Πανεπιστημιακής Κοινότητας να συνεργαστούν προς αυτή την κατεύθυνση και ορίζει ως ημερομηνία έναρξης των μαθημάτων του χειμερινού εξαμήνου την Δευτέρα 16η Δεκεμβρίου 2013.
Καλεί στο ενδιάμεσο διάστημα το Υπουργείο Παιδείας και Θρησκευμάτων να συμβάλει στην επίτευξη της ομαλής λειτουργίας του Πανεπιστημίου Αθηνών, μέσω μιας ουσιαστικής συζήτησης με το επίσημο Πανεπιστήμιο, για την άρση συγκεκριμένων τυπικών και πρακτικών προβλημάτων.
Είναι αυτονόητο ότι όλα τα παραπάνω επιβάλλεται να γίνουν σε ατμόσφαιρα καλής θελήσεως και πίστεως με τη δημιουργία του κατάλληλου ήπιου κλίματος.
Εν τω μεταξύ, παρά την επιμονή από την πλευρά του πανεπιστημίου και ιδιαίτερα των απεργών διοικητικών υπαλλήλων να πάρουν μια απάντηση από τον υπουργό Παιδείας για το πώς θα επαναλειτουργήσουν τα πανεπιστήμια από την στιγμή που η διαθεσιμότητα ισχύει και άρα ολόκληρα τμήματα είναι αποδεκατισμένα εξαιτίας της έλλειψης υπαλλήλων, η απάντηση από τον κο Αρβανιτόπουλο δεν δίνεται. Καθηγητές και διοικητικοί υπάλληλοι τονίζουν πως χωρίς γραματείς πχ δεν είναι δυνατό να γίνουν εγγραφές και ορκομωσίες, όπως και ομαλή λειτουργία δεν μπορεί να διασφαλισθεί χωρίς τους φύλακες.
http://www.tvxs.gr/news/ellada/ta-stoixeia-ton-%C2%ABapeitharxon%C2%BB-melon-tis-sygklitoy-zitaei-tora-i-astynomia••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••
Και επειδή
δεν μου αρέσει όταν μπορώ να μην προτείνω εναλλακτική λύση, αν θέλει ο κ. Μήτκας ή οι φοιτητές του εργαστηρίου βάση δεδομένων με πολλά πολλά δεδομένα τους έχω μια λύση:
μπορώ να τους δώσω μερικές από με δεκάδες και εκατοντάδες χιλιάδες εγγραφές χωρίς ίχνος προσωπικών δεδομένων ή πολιτικών απόψεων μέσα...Το μεσημέρι επικοινώνησα λοιπόν με την ΑΠΔΠΧ για να μάθω τι ισχύει και τους έκανα μια μη ανώνυμη πχ ερώτηση για να μάθω τι ισχύει.
Μου είπαν προφορικά και ανεπίσημα, γιατί για να απαντήσει επίσημα η Αρχή πρέπει να υπάρχει γραπτό ερώτημα (ταχυδρομικά ή με EMail) που θα πάρει και αριθμό πρωτοκόλου και θα καταχωρηθεί επίσημα και μου απάντησε κάποια Νομική ή Πληροφοριακή εκπρόσωπος οτι :
ΠΡΕΠΕΙ ΝΑ ΥΠΑΡΧΕΙ ΡΗΤΗ ΣΥΓΚΑΤΑΘΕΣΗ ΚΑΘΕ ΜΕΛΟΥΣ ΤΟΥ ΦΟΡΟΥΜ ΞΕΧΩΡΙΣΤΑ για να δοθεί αντίγραφο της βάσης δεδομένων οπουδήποτε. και ειδικά αφού δεν υπήρχε στους Όρους Συμμετοχής κάτι τέτοιο ρητά.[/color]Μια λύση θα ήταν ίσως κάποιο Poll με φανερή ψηφοφορία των μελών όπου θα καλούνται να παρέχουν ή όχι την συγκατάθεσή τους, ο καθένας για τον εαυτό του. Όσοι δεν ψηφίσουν - δηλώσουν θεωρείται οτι δεν ενημερώθηκαν και άρα δεν επιτρέπεται να δοθούν τα δικά τους ποστ κτλ .
Οπότε, και αφού έχω το δικαίωμα, λέω
Όχι, δεν δέχομαι να δοθούν τα δικά μου ποστ και οποιαδήποτε άλλα αναφέρονται σε δικά μου ή κάνουν quote δικά μου post και οι συζητήσεις γενικότερου ενδιαφέροντος, ειδικά οι γενικού πολιτικού ενδιαφέροντος, στις οποίες έχω συμμετάσχει σε κανέναν και για καμία χρήση, γιατί πολύ εύκολα φτάνουν σε διάφορους μαρκετίστες, opinion makers και διάφορους άλλους αναλυτές παπαρολόγους όπως τα κατακάθια της Ομάδας Αλήθειας της Νέας Δημοκρατίας, διάφορους απύθμενου θράσους διαφημιστές, spammers, κτλ. κτλ.
Και αφού έχω το δικαίωμα απαγορεύω από την πλευρά μου να δοθεί αντίγραφο της βάσης δεδομένων σε οποιονδήποτε αν δεν αφαιρεθούν πρώτα όλα τα δικά μου ποστ, σχόλια, προσωπικά μυνήματα κτλ.
Όποιος δεν έχει πρόβλημα να δοθούν τα δικά του να το δηλώσει ρητά και κατηγορηματικά και να μείνουν τα δικά του ποστ στο αντίγραφο της βάσης που θα δοθεί αν δοθεί τελικά.
Α. δεν είπα κανένα σοβαρό επιχείρημα για να γελάσεις
B. Eμένα μου δόθηκε ο τίτλος της εργασίας " Συναισθηματική αναλυση στο τημμυ.gr" . αυτό και μόνο αυτό.Οπότε το πρώτο πρόβλημα π έπρπε να λύσω ήταν το πως να πάρω τα δεδομένα μου
Γ. Τη συλλογή την έκανε script σε python με χρήση του πακέτου scrapy. Οι κλήσεις του crawler στο site έγιναν σαν αυτός να είναι guest.
Δ. Στη συναισθηματική ανάλυση, που δεν είναι και σε κάνα τραγικά εξελιγμένο στάδιο ( στην ελλάδα ειδικά δεν βρήκα ίχνος βιβλιογραφίας) , αυτό που καίει την έρευνα περισσότερο είναι η πόλωση συναισθήματος σε επίπεδο κειμένου. Δλδ εμένα στην εργασία μου το κύριο πράγμα π με ενδιαφέρει ε΄ναι να διαχωρίζονται αρνητικά απο θετικά ποστς . Σε πιο εξελιγμένο επίπεδο, οπότε μιλάμε και για Opinion Mining, η ανάλυση γίνετια σε επίπεδο χαρακτηριστικών όπου διαχωρίζεται υποκείμενο ρήμα αντικείμενο σε κάθε πρόταση , και εξάγεται συμπέρασμα για το τι συναίσθημα εκδηλώνει το υποκείμενο για το συγκεκριμένο αντικείμενο. Αυτό απαιτεί και ύπαρξη POS TAGGER (part of speech tagger) κάτι που και πάλι για ελληνικά δεδομένα, τουλάχιστον σε αξιοποίησιμη μορφή, δεν βρήκα να υπάρχει. Οπότε απο μένα τουλάχιστον αυτό π έχεις να περιμένεις είναι ανίχνευση αντικειμενικότητας υποκειμενικότητας (ουδέτερο-υποκειμενικό), ανίχνευση πόλωσης(αρνητικό-θετικό) και αντιστοίχηση με μια κλίμακα συναισθήματος . Όλα αυτά σε επίπεδο ποστ ξαναλέω.
ps. Όσο για το τι δεδομένα τράβηξα, είπα και πριν. Ακριβώς οτι βλέπει ένας guest στο forum. Δλδ posts και usernames. Τα usernames για να είμια ειλικρινής ούτε χρησιμοποιήθηκαν κάπου ούτε θα τα έβαζα ούτως η άλλως στην εργασία. Στοχευμένη ανάλυση δεν θα κάνω. Αν θες παράδειγμα του τι μπορεί να βάλω στην εργασία, φαντάσου πχ το θέμα με τη διαθεσιμότητα, ποσοστά θετικών αρνητικών σχολίων, κύρια συναισθήματα που ίσως να εκδηλώνονται μέσα απο τα ποστ, και κανα wordle με τις πιο συχνά εμφανιζόμενες λέξεις στο συγκεκριμένο τόπικ. Αυτό και μόνο αυτό, όσον αφορά την ανάλυση του φόρουμ αυτή καθ αυτή . Απο κει και πέρα η εργασία θα χει ανάλυση μεθοδολογίας, σύγκριση αποτελεσμάτων, σύγκριση αποτελεσματικότητας ταξινομητών κλπ.