THMMY.gr

Χαλαρή συζήτηση - κουβεντούλα => Η γωνιά του παιδιού => Topic started by: rspappas on March 22, 2017, 22:23:54 pm



Title: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 22, 2017, 22:23:54 pm
Αυτό που λέει ο τίτλος.

445 διπλωματικές ανεβασμένες, αρκετά μεγάλο dataset για να γίνει παιχνίδι.

Ξεκινάμε με μια ανάλυση του μεγέθους αρχείου της διπλωματικής (του ανεβασμένου PDF).

(https://i.imgur.com/wAl8gDr.jpg)

βλέπουμε μια ενδιαφέρουσα κατανομή μάλλον Poisson(? οποιος τα εχει πιο φρεσκα να το δει :P )


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 22, 2017, 22:27:01 pm
Βραβείο Μικρότερου Μεγέθους Αρχείου (0.5MB) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/kapellas_nikolaos_computational_geometry_algorithm.pdf)

Βραβείο Μεγαλύτερου Μεγέθους Αρχείου (41.4MB) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/stavridis_sotirios_thesis.pdf)


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 22, 2017, 23:03:18 pm
Αριθμός Σελίδων, ένα πονεμένο θέμα για πολλούς

(https://i.imgur.com/yYB69qf.jpg)

Mean97.6568848758
Standard Error1.7849712086
Mode70
Median92
First Quartile 70
Third Quartile119
Variance1411.4521414053
Standard Deviation37.5692978562
Kurtosis1.8558544299
Skewness1.0823805642
Range237
Minimum23
Maximum260
Sum43262
Count443


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 22, 2017, 23:08:05 pm
Βραβείο των Λιγότερων Σελίδων (23) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/kapellas_nikolaos_computational_geometry_algorithm.pdf) (για πολλά βραβεία η συγκεκριμένη διπλωματική)

Βραβείο των Περισσότερων Σελίδων (260) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/montelo_sinallagon_efedrias_antikatastasis_metaxi_europaikon_xoron.pdf) (δύο ατόμων)

Βραβείο των Περισσότερων Σελίδων (251) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/vaskos_konstantinos_dissertation_full_size.pdf) (ενός ατόμου)


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Exomag on March 22, 2017, 23:39:59 pm
rspappas άμα κάνεις και ένα font analysis, σε κερνάω ;D


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 22, 2017, 23:49:45 pm
ε τα μισα εχουν την αηδια default font του latex


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Exomag on March 22, 2017, 23:51:24 pm
ε τα μισα εχουν την αηδια default font του latex

+1

Μπορείς να βγάλεις από την ανάλυση σου τις default fonts του LaTeX και Word :D


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: leukosaraphs! on March 22, 2017, 23:55:56 pm
too much free time, bruh


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Exomag on March 22, 2017, 23:58:49 pm
Βραβείο Μεγαλύτερου Μεγέθους Αρχείου (41.4MB) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/stavridis_sotirios_thesis.pdf)

Εντωμεταξύ, δεν μπορώ να καταλάβω γιατί η μεγαλύτερη διπλωματική είναι αυτή που postαρε ο rspappas.

Έχω πετύχει διπλωματικές με εικόνες .jpg/.png πεταμένες από κάμερα κινητού με αντίστοιχο μέγεθος, που λογικό να είναι τόσο μεγάλες, αλλά η συγκεκριμένη είναι προσεγμένη με εικόνες με vector graphics. Εκτός αν είναι με άπειρα σημεία/κόμβους οπότε γι' αυτο και το μέγεθος :???:


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 00:04:18 am
πολυ ευκολο παντως ειναι να βρεθει ποιο προγραμμα εφτιαξε το pdf

working on the fonts as we speak


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Exomag on March 23, 2017, 00:06:18 am
working on the fonts as we speak

 ^hello^


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 00:08:01 am
preliminary top 10 γραμματοσειρων (θα επανελθω με αναλυση)

    272 Calibri
    218 Arial
    199 Symbol
    164 Times New Roman
    154 Cambria Math
    146 Cambria
    109 Wingdings
     59 Courier New
     56 ArialMT
     46 TimesNewRomanPSMT


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Apostolof on March 23, 2017, 00:09:47 am
Σωραίος!!  ^clap^ ^clap^
Πες μας και πως βγάζεις τα αποτελέσματα.


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 00:13:26 am
Ναι, έχει γραφτεί κάμποσος κώδικας. Θα κάνω document


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: iason1907 on March 23, 2017, 00:56:13 am
Οι λέξεις έχουν μάλλον πιο πολύ νόημα από τις σελίδες. Εκτός αν βγάλεις στατιστικά συναρτήσει περιθωρίων και γραμματοσειράς.

Υγ. Κάνε και ένα πλοτ σε ματλαμπ, δε μ αρέσει το εξέλ. Ανέβασε και .mat να παίξουμε και οι υπόλοιποι με τα στατιστικά. :p


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 01:24:43 am
δεν εχω ματλαμπ
ολα εχουν γινει με bash <3

https://github.com/pappasadrian/vivliothmmy-parsing


επισης
Οι λέξεις έχουν μάλλον πιο πολύ νόημα από τις σελίδες.
ξεκαθαρα δεν γινεται αυτο για το "νοημα", αλλα whatevz


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 02:00:12 am
Wordcount αφου ζητηθηκε

Buggy as hell, γιατι ολοι ξερουμε τι καλα και consistent αποθηκευεται το κειμενο στα pdf. Οι παρακατω μετρησεις σιγουρα περιεχουν σφαλματα, οποτε μικρο καλαθι γενικα.

(https://i.imgur.com/6mliUMG.jpg)



Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 02:05:22 am
Τα παρακάτω βραβεία με εξαιρετική επιφύλαξη - πιθανα να γαμιεται το software μου

Βραβείο των Λιγότερων Λέξεων (2795) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/kapellas_nikolaos_computational_geometry_algorithm.pdf)

Βραβείο των Περισσότερων Λέξεων (111158) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/montelo_sinallagon_efedrias_antikatastasis_metaxi_europaikon_xoron.pdf) (δύο ατόμων)

Βραβείο των Περισσότερων Λέξεων (60232) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/kaitalidou_dimitra_ban.pdf) (ενός ατόμου)

Τιμής Ένεκεν

Διπλωματική που κατατέθηκε ως bitmap και οχι ως κείμενο (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/siw_csrr_thesis.pdf)


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: iason1907 on March 23, 2017, 02:15:23 am

επισηςξεκαθαρα δεν γινεται αυτο για το "νοημα", αλλα whatevz
Ελπίζω να έγινε κατανοητό ότι το νόημα του καψίματος έψαχνα  :P


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Apostolof on March 23, 2017, 02:16:36 am
Αν δε βαριέσαι βγάλε ένα λόγο (κενές σελίδες)/(σύνολο σελίδων). Κάποιοι μου φαίνεται βάζουν υπερβολικά πολλές ανάμεσα στο κείμενο :P

Βασικά και το (αριθμός λέξεων)/(σύνολο σελίδων) θα δείχνει πόσο αραιά ή πυκνά είναι γραμμένη.


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Exomag on March 23, 2017, 02:23:39 am
Βραβείο των Λιγότερων Λέξεων (2795) (http://vivliothmmy2.ee.auth.gr/wp-content/uploads/participants-database/kapellas_nikolaos_computational_geometry_algorithm.pdf)

 ;D :D ^rolfmao^


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 02:25:25 am
Και ενα τελευταίο για απόψε

Top 10 Software που χρησιμοποιήθηκαν για την τελική δημιουργία του αρχείου PDF

67   Microsoft® Word 2010
61   LaTeX with hyperref package
55   Microsoft® Office Word 2007
35   Microsoft® Word 2016
15   PScript5.dll Version 5.2.2
10   Acrobat PDFMaker 11 for Word
9   Writer
9   http://www.convertapi.com
7   TeX
5   convertonlinefree.com


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 02:26:22 am
Αν δε βαριέσαι βγάλε ένα λόγο (κενές σελίδες)/(σύνολο σελίδων). Κάποιοι μου φαίνεται βάζουν υπερβολικά πολλές ανάμεσα στο κείμενο :P

Βασικά και το (αριθμός λέξεων)/(σύνολο σελίδων) θα δείχνει πόσο αραιά ή πυκνά είναι γραμμένη.

ελα, κατεβασε τα σκριπτ και καντο μονος σου αυτο


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Apostolof on March 23, 2017, 02:29:20 am
ελα, κατεβασε τα σκριπτ και καντο μονος σου αυτο

Δε πρέπει να κατεβάσω και όλες τις εργασίες;


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 23, 2017, 02:31:30 am
2GB ειναι, πως κανεις ετσι :P


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 24, 2017, 17:36:55 pm
top 10 χρησιμοποιουμενες λεξεις (>2 χαρακτηρες, οχι νουμερα)

και
του
της
την
που
των
για
από
είναι
the

εδω η φαση πλεον εχει αρχισει να βρωμαει αναγνωριση προτυπων


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Πάτρικ Αστέρης on March 24, 2017, 18:36:24 pm
στατιστικά με γραμματοσειρές


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: Πάτρικ Αστέρης on March 24, 2017, 18:40:47 pm
κουοουτ
σορρυ Δεν τα δα στην πρώτη σελίδα


Title: Re: Meta-ανάλυση - Data mining vivliothmmy2.ee.auth.gr
Post by: rspappas on March 26, 2017, 22:55:20 pm
Κατι που επρεπε να ειχε γινει απο την αρχη.
Διπλωματικες ανα τομεα.

(https://i.imgur.com/49wxx26.jpg)

(σφαλμα μετρησης: μετριουνται πολλες φορες οι διπλοτυπες διπλωματικες - αυτες που εχουν πανω απο 1 συγγραφεα, και εχουν ανεβει πολλες φορες στο vivliothmmy)