To jest zrobione tak, że w wersji DEMO program odpala jeden wątek do obliczeń. Pozostałe wątki obsługują interfejs i inne mniej wymagające rzeczy np. aktualizacje. Czyli teoretycznie to nawet wersja demo jakoś tam korzysta z dodatkowych rdzeni ale minimalnie.
Wersja pełna dzieli sobie obrazek na poziome paski i każdy dostępny rdzeń dostaje swój kawałek. Większość operacji na szczęście da się w moich algorytmach rozłożyć w taki właśnie sposób i przy dużych obrazkach (gdzie wątki pracują dłużej i czas na ich uruchomienie i synchronizację robi się procentowo nieistotny) kop jest prawie liniowy do ilości rdzeni. W testach to mi wychodziło coś w stylu:
1 rdzeń przetwarzał 1min,03s
2 rdzenie : 0min, 36s
4 rdzenie: 0min, 20s