THMMY.gr

Παρα-φόρουμ => Τεχνικά Θέματα του Forum => Topic started by: nohponex on June 20, 2016, 20:58:48 pm



Title: Search engines και robots.txt
Post by: nohponex on June 20, 2016, 20:58:48 pm
Όπως εκανε report ο Apostolof χτες αλλα και:

Quote from: Αιμιλία η φτερωτή χελώνα@shoutbox
προς ΟΔ/ΟΣ: Οταν κανω αναζητηση στο module του google search του forum, πλεον δε μπορω να βρω το τοπικ στο οποιο ειναι γραμμενο το ποστ που περιεχει τα queries μου. Παλια, μπορουσα. Τι παιζει;

Εκανα ban τις μηχανές αναζήτης με το robots.txt επειδή μας πέφτανε οι crawlers τους ολοι μαζι και εκαναν DDOS.

Εβαλα το Google στα allowed παλι και το * δοκιμαστικά κρατάω τα aliases του msn και yahoo που ξερω και που σίγουρα μας δημιουργούσαν προβλήματα, μεχρι να βρώ και τα υπόλοιπα.


Code:
User-agent: *
Disallow: /

User-agent: Yahoo-slurp
Disallow: /

User-agent: Msnbot
Disallow: /

User-agent: MSNBot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /

και το πιο φρέσκο που αλλαξα μόλις τωρα https://www.thmmy.gr/robots.txt
Code:
User-agent: Google
Disallow:

User-agent: Yahoo-slurp
Disallow: /

User-agent: Msnbot
Disallow: /

User-agent: MSNBot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /

Χρήσιμα links:
http://www.robotstxt.org/


Title: Re: Search engines και robots.txt
Post by: Σα τανυστής on June 20, 2016, 21:01:41 pm
ασε και τη duckduckgo  :D


Title: Re: Search engines και robots.txt
Post by: nohponex on June 20, 2016, 21:03:44 pm
ασε και τη duckduckgo  :D

Ειναι στα allowed απο σημερα παλι


Title: Re: Search engines και robots.txt
Post by: Σα τανυστής on June 20, 2016, 22:47:54 pm
ρωτησα και στο shoutbox αλλα εφαγα 301...

για πες λοιπον, πως λειτουργει η φαση με τους crawler από τις engines και πως καταληγει να πεφτει το site?

εχοντας κανει scrape αρκετες φορες ξερω ότι αν δεν πας μεσω API, πρεπει το λιγοτερο να σεβεσαι ένα minimum rate του ποσο μπορεις να κανεις query τη σελιδα σε ένα χρονικο διάστημα. Αυτό δε το κανουν οι μηχανες?


Title: Re: Search engines και robots.txt
Post by: nohponex on June 20, 2016, 23:56:55 pm

Σίγουρα εχουν κάποιο άνω όριο άλλα αυτο ειναι πολυ μεγάλο για εμας, αυτο που βλέπαμε οταν ειχε downtimes ο server ηταν 10 με 20 connections τουλάχιστον απο hostnames msn* yahoo*, καταλήγω στο συμπέρασμα οτι φταίνε αυτοί :P Γιατι εκτος απο την κίνηση στον webserver, το μεγαλο πρόβλημα ηταν οτι έφτανε η βαση στα όρια των συνδέσεών της δεν μπορούσε να κλείσει συνδέσεις και καπως μεσα σε ολα αυτα οι πινακες MyISAM έκαναν και crash καμια φορά.

Απ' οσο δεν υπαρχει καποιο universal ή custom definition για rate limiting (εκτος του 503) ούτε ειμαι σίγουρος αν οι περισσότεροι ή όλοι θα έκαναν (σωστό) negotiation απο εχως ip rate limiting στον server και απαντώντας
503 Service Unavailable με Retry-After header


Title: Re: Search engines και robots.txt
Post by: nohponex on June 21, 2016, 00:06:12 am
Απ οτι βλέπω κατι έχει κάποια βλακεία η βλαμμενη microsoft για το βλαμμένο bing της

links:

http://advertise.bingads.microsoft.com/en-uk/blog/28449/tips-to-control-traffic-spikes-caused-by-bots-crawling-your-web-site
https://webmasters.stackexchange.com/questions/29883/need-to-stop-bots-from-killing-my-webserver


Title: Re: Search engines και robots.txt
Post by: Αιμιλία η φτερωτή χελώνα on June 21, 2016, 00:16:21 am
Quote
nohponex
Ιουνίου 20, 2016, 20:53:58 pm
Επίσης εισαι 800 χρονια μελλος, γιατι το γραφεις στο shoutbox :/;

Βασικα το προβλημα μου δεν λυθηκε. Παιζει και να μην εξηγησα καλα.

Εγω τωρα κανω google search με το module αναζητησης και μου βγαζει κατι σαν αυτο που επισυναπτω.
Δηλαδη μου βγαζει μονο "latest posts from ***" επιλογες.

Εδω υπαρχουν 2 προβληματα:
1) Μεχρι πριν καμποσο καιρο εβγαιναν και topics στα αποτελεσματα.
Δλδ μπορουσα να κανω κλικ στο αποτελεσμα της αναζητησης και να δω το τοπικ, συνηθως σε wap μορφη.
Και απλα αλλαζες το λινκ για να δεις το κανονικο.
Τωρα δεν βγαινουν topics στα αποτελεσματα, παρα μονο "latest posts"

2) Στα latest posts, αν πατησεις πανω τους, σε πηγαινουν σε μια random σελιδα απο τα latest posts του profile που εκανε κααααποτε ενα ποστ που περιειχε τα queries μου.
Δλδ αν ανοιξω ενα λινκ απο τα αποτελεσματα και πατησω ctrl+F και βαλω το query μου, δε θα βρει τιποτα στη σελιδα.
Δλδ το ποστ με το query μου ειναι σε τελειως διαφορετικη σελιδα στα latest posts του profile που θα με παει.



Title: Re: Search engines και robots.txt
Post by: Apostolof on June 21, 2016, 00:26:55 am
Νομίζω θα λυθεί σε λίγες ώρες/μέρες που θα ολοκληρώσει το indexing η google.


Title: Re: Search engines και robots.txt
Post by: nohponex on June 21, 2016, 00:31:16 am
Νομίζω θα λυθεί σε λίγες ώρες/μέρες που θα ολοκληρώσει το indexing η google.
++

(μερικές μέρες)


Title: Re: Search engines και robots.txt
Post by: Katarameno on June 21, 2016, 01:45:11 am
ασε και τη duckduckgo  :D

DuckDuckGo
https://duckduckgo.com/
The search engine that doesn't track you.

Και τότε γιατί έχει bots ?  :D :P