Achtergrond

Cell-processor leert naar plaatjes kijken

Pieter Edelman
Leestijd: 11 minuten

Bij het overzetten van een sequentieel programma naar een heterogene multicorearchitectuur zijn de gevolgen voor de uitvoersnelheid van tevoren niet altijd te overzien. De Cell-processor biedt in totaal vijf lagen van parallellisme waar de programmeur rekening mee moet houden. Een verkeerde inzet hiervan betekent een verspilling van rekenkracht. Een applicatie kan zelfs langzamer draaien dan de originele code. Ana Lucia Varbanescu van de TU Delft zette voor IBM de Marvel-applicatie over, een toepassing om foto‘s te classificeren. Zij experimenteerde met de optimale inzet van de rekenkernen. Meer is niet altijd beter.

Bij de Cell-processor zullen de meeste mensen aan de Playstation 3 denken, de spelconsole waarmee Sony de harten en portemonnees van gamers probeert te veroveren. De Cell is echter interessant voor veel meer toepassingsgebieden. De processor werd gezamenlijk ontwikkeld door IBM, Sony en Toshiba. Sony had een duidelijke toepassing voor ogen om in het project te stappen. Voor de andere twee partners lag dat wat anders. Toshiba dacht het silicium te kunnen gebruiken voor zijn televisies. IBM had dezelfde opvattingen over zijn High Performance Computing-toepassingen, programmatuur die grote hoeveelheden rekenkracht vereist. Op dit moment evalueert Big Blue de Cell door zijn HPC-applicaties zo veel mogelijk over te zetten naar deze processor.

Bij de introductie van de PS3 roemde halfgeleidermarktonderzoeker Isuppli de Cell-processor door deze te omschrijven als ’supercomputer op een chip‘. De Cell heeft dan ook flink wat in huis: naast een min of meer standaard PowerPC-kern voor huishoudelijke taken beschikt de chip over acht vectoreenheden, die elk 128 bits aan data tegelijk kunnen verwerken in twee onafhankelijke pijplijnen. Deze Synergistic Processor Elements (SPE‘s) hebben geen cachegeheugen, omdat dat lastig te synchroniseren is over de in totaal negen rekenkernen. In plaats daarvan hebben ze elk 256 kilobyte aan Local Store-opslag (LS). Om het gebrek aan snelle toegang tot cachegeheugen gedeeltelijk te compenseren, gebruiken de SPE‘s asynchrone DMA-aanroepen om data tussen het werkgeheugen en de LS heen en weer te pompen. De processor kan dus al een ophaalcommando geven terwijl de voorgaande transactie nog bezig is. Per transactie kan er zestien kilobyte worden overgedragen.

This article is exclusively available to premium members of Bits&Chips. Already a premium member? Please log in. Not yet a premium member? Become one and enjoy all the benefits.

Login

Related content