Title: Search engines και robots.txt Post by: nohponex on June 20, 2016, 20:58:48 pm Όπως εκανε report ο Apostolof χτες αλλα και:
Quote from: Αιμιλία η φτερωτή χελώνα@shoutbox προς ΟΔ/ΟΣ: Οταν κανω αναζητηση στο module του google search του forum, πλεον δε μπορω να βρω το τοπικ στο οποιο ειναι γραμμενο το ποστ που περιεχει τα queries μου. Παλια, μπορουσα. Τι παιζει; Εκανα ban τις μηχανές αναζήτης με το robots.txt επειδή μας πέφτανε οι crawlers τους ολοι μαζι και εκαναν DDOS. Εβαλα το Google στα allowed παλι και το * δοκιμαστικά κρατάω τα aliases του msn και yahoo που ξερω και που σίγουρα μας δημιουργούσαν προβλήματα, μεχρι να βρώ και τα υπόλοιπα. Code: User-agent: * και το πιο φρέσκο που αλλαξα μόλις τωρα https://www.thmmy.gr/robots.txt Code: User-agent: Google Χρήσιμα links: http://www.robotstxt.org/ Title: Re: Search engines και robots.txt Post by: Σα τανυστής on June 20, 2016, 21:01:41 pm ασε και τη duckduckgo :D
Title: Re: Search engines και robots.txt Post by: nohponex on June 20, 2016, 21:03:44 pm ασε και τη duckduckgo :D Ειναι στα allowed απο σημερα παλι Title: Re: Search engines και robots.txt Post by: Σα τανυστής on June 20, 2016, 22:47:54 pm ρωτησα και στο shoutbox αλλα εφαγα 301...
για πες λοιπον, πως λειτουργει η φαση με τους crawler από τις engines και πως καταληγει να πεφτει το site? εχοντας κανει scrape αρκετες φορες ξερω ότι αν δεν πας μεσω API, πρεπει το λιγοτερο να σεβεσαι ένα minimum rate του ποσο μπορεις να κανεις query τη σελιδα σε ένα χρονικο διάστημα. Αυτό δε το κανουν οι μηχανες? Title: Re: Search engines και robots.txt Post by: nohponex on June 20, 2016, 23:56:55 pm Σίγουρα εχουν κάποιο άνω όριο άλλα αυτο ειναι πολυ μεγάλο για εμας, αυτο που βλέπαμε οταν ειχε downtimes ο server ηταν 10 με 20 connections τουλάχιστον απο hostnames msn* yahoo*, καταλήγω στο συμπέρασμα οτι φταίνε αυτοί :P Γιατι εκτος απο την κίνηση στον webserver, το μεγαλο πρόβλημα ηταν οτι έφτανε η βαση στα όρια των συνδέσεών της δεν μπορούσε να κλείσει συνδέσεις και καπως μεσα σε ολα αυτα οι πινακες MyISAM έκαναν και crash καμια φορά. Απ' οσο δεν υπαρχει καποιο universal ή custom definition για rate limiting (εκτος του 503) ούτε ειμαι σίγουρος αν οι περισσότεροι ή όλοι θα έκαναν (σωστό) negotiation απο εχως ip rate limiting στον server και απαντώντας 503 Service Unavailable με Retry-After header Title: Re: Search engines και robots.txt Post by: nohponex on June 21, 2016, 00:06:12 am Απ οτι βλέπω κατι έχει κάποια βλακεία η βλαμμενη microsoft για το βλαμμένο bing της
links: http://advertise.bingads.microsoft.com/en-uk/blog/28449/tips-to-control-traffic-spikes-caused-by-bots-crawling-your-web-site https://webmasters.stackexchange.com/questions/29883/need-to-stop-bots-from-killing-my-webserver Title: Re: Search engines και robots.txt Post by: Αιμιλία η φτερωτή χελώνα on June 21, 2016, 00:16:21 am Quote nohponex Ιουνίου 20, 2016, 20:53:58 pm Επίσης εισαι 800 χρονια μελλος, γιατι το γραφεις στο shoutbox :/; Βασικα το προβλημα μου δεν λυθηκε. Παιζει και να μην εξηγησα καλα. Εγω τωρα κανω google search με το module αναζητησης και μου βγαζει κατι σαν αυτο που επισυναπτω. Δηλαδη μου βγαζει μονο "latest posts from ***" επιλογες. Εδω υπαρχουν 2 προβληματα: 1) Μεχρι πριν καμποσο καιρο εβγαιναν και topics στα αποτελεσματα. Δλδ μπορουσα να κανω κλικ στο αποτελεσμα της αναζητησης και να δω το τοπικ, συνηθως σε wap μορφη. Και απλα αλλαζες το λινκ για να δεις το κανονικο. Τωρα δεν βγαινουν topics στα αποτελεσματα, παρα μονο "latest posts" 2) Στα latest posts, αν πατησεις πανω τους, σε πηγαινουν σε μια random σελιδα απο τα latest posts του profile που εκανε κααααποτε ενα ποστ που περιειχε τα queries μου. Δλδ αν ανοιξω ενα λινκ απο τα αποτελεσματα και πατησω ctrl+F και βαλω το query μου, δε θα βρει τιποτα στη σελιδα. Δλδ το ποστ με το query μου ειναι σε τελειως διαφορετικη σελιδα στα latest posts του profile που θα με παει. Title: Re: Search engines και robots.txt Post by: Apostolof on June 21, 2016, 00:26:55 am Νομίζω θα λυθεί σε λίγες ώρες/μέρες που θα ολοκληρώσει το indexing η google.
Title: Re: Search engines και robots.txt Post by: nohponex on June 21, 2016, 00:31:16 am Νομίζω θα λυθεί σε λίγες ώρες/μέρες που θα ολοκληρώσει το indexing η google. ++(μερικές μέρες) Title: Re: Search engines και robots.txt Post by: Katarameno on June 21, 2016, 01:45:11 am ασε και τη duckduckgo :D DuckDuckGo https://duckduckgo.com/ The search engine that doesn't track you. Και τότε γιατί έχει bots ? :D :P |