Το πιο απλό να κάνεις split τα samples πχ σε 4 thread.
Στην cuda τι λογική ακολουθήσατε; Εγώ πήγα να κάνω kernel σε επίπεδο layer και βγαίνει πιο αργός από μόνο pthreads...
Στην cuda τι λογική ακολουθήσατε; Εγώ πήγα να κάνω kernel σε επίπεδο layer και βγαίνει πιο αργός από μόνο pthreads...
Εγώ έκανα όλη τη διαδικασία σε CUDA, οπότε δεν έχει νόημα να σπάσω τα samples π.χ. σε 4 threads. Θα βγει πιο αργό...