در مورد thread shareباید بگم وقتی حذف میکنم جوابه اشتباه میده. میشه لطف کنین و بگین چه طوری میتونم با استفاده از پردازنده گرافیکی CUDA افزایش سرعت داشته باشم؟ چون تا حالا در این زمینه کار نکردم. تا الگوریتم تغییر نکنه فکر نکنم با استفاده از mpi هم به نتیجه برسم چون الگوریتم به گونه ای است که حافظه اشتراکی بهتر به جواب میرسه نظر شما چیه؟ من دنبال تسریع هستم حالا به هر طریقی وقتی تعداد آرایه ام 4000 تا هست در حالت موازی 273 ثانیه و در حالت سری 440 ثانیه است که عملا دردی رو دوا نمیکنه حالا باید به نظر شما از کدوم روش استفاده کنم تغییر الگوریتم و استفاده از ترکیب mpi و openmp و یا استفاده از پردازنده گرافیکی CUDA؟؟؟