Toekomstige chipvariatie is een systeemprobleem

Author:

Els Parton is wetenschappelijk redacteur bij Imec en hoofredacteur van Imec Magazine.

Reading time: 7 minutes

Hoe kleiner transistoren worden, hoe meer ze van elkaar gaan verschillen wat betreft betrouwbaarheid en performance. De verschillen worden door een verschillend verouderingstempo alleen maar groter bij gebruik. Om systemen met die variatie om te laten gaan, moeten chiptechnologen gaan samenwerken met systeemarchitecten.

Tot een paar jaar geleden konden chipfabrikanten hun producten nog verkopen met een gegarandeerde levensduur. Transistoren in deze chips zijn opgebouwd uit transistoren met dezelfde ‘gemiddelde’ eigenschappen, en ze verouderen of degraderen daarom op een voorspelbare manier. Met een zogeheten guard band-benadering kon worden gegarandeerd dat de circuits en chips in alle omstandigheden goed blijven functioneren: er worden extra marges toegevoegd aan de gemiddelde eigenschappen van de transistoren, zodat ze ook in extreme situaties goed blijven werken.

De guard band-benadering (links) gebaseerd op corner points wordt onhoudbaar voor systemen gemaakt met 14-nanometertechnologie. Imec stelt een workload-dependent-model (rechts) voor als oplossing.

Maar door transistorverkleining, en de daarbij horende betrouwbaarheidsproblemen, zouden deze marges van ongeveer tien procent naar veel hogere waarden moeten worden getild. Vanaf de 14-nanometergeneratie wordt de guard band-benadering daarom geleidelijk aan onhoudbaar voor systemen die een gegarandeerde werking vereisen.

‘Vroeger was het vooral de taak van de technologiemensen om de betrouwbaarheid van een systeem te garanderen. Binnen afzienbare tijd zal dat niet meer mogelijk zijn en komen we op een punt waar wij, de technologiemensen, moeten samenwerken met systeemarchitecten om betrouwbare systemen te ontwerpen met onbetrouwbare bouwblokken’, zegt Imec-fellow Guido Groeseneken.

Hij vervolgt: ‘In mijn onderzoeksgroep worden betrouwbaarheidsproblemen bij transistoren opgemeten en proberen we fundamenteel te begrijpen wat er aan de hand is. Voor de 40-nanometergeneratie is het nog steeds mogelijk om de betrouwbaarheidsproblemen op te vangen en een goed systeem te bouwen. Maar bij 7 nanometer bestaat het risico dat de betrouwbaarheid van de transistoren invloed heeft op het hele systeem. Conventionele ontwerptechnieken kunnen dit niet opvangen. Daarom moeten we dringend op zoek gaan naar nieuwe systeemontwerpparadigma’s.’

Het geval wil dat transistoren niet alleen inherent onbetrouwbaarder worden, maar dat ze ook allemaal anders verouderen. Groeseneken: ‘Eerst en vooral verouderen de transistoren niet meer op een uniforme manier, zelfs als ze hetzelfde worden belast. Elke individuele transistor heeft zijn eigen verouderingsniveau, dus moeten we de statistische verspreiding van de degradatie gaan bekijken. En in een echt systeem varieert de belasting natuurlijk. Denk bijvoorbeeld aan een multimediatoepassing waar de workload afhankelijk is van de instructies die de gebruiker geeft aan het systeem. Deze workload-afhankelijke veroudering komt er dus nog bij en maakt het voorspellen van de transistordegradatie in een systeem zeer complex.’

Groesenekens Imec-collega en systeemarchitect Francky Catthoor vult aan: ‘Deze workload-dependence hoeft niet negatief te zijn. Uiteindelijk schuilt hierin eigenlijk de sleutel om betrouwbare systemen te maken met extreem geschaalde transistoren. Toekomstige systemen zullen verspreide monitors hebben die lokaal fouten gaan detecteren. Een slimme controller interpreteert deze informatie, beslist hoe het probleem op te lossen en stuurt de zogeheten systeemknoppen – actuatoren – aan om het probleem op te lossen.’

Groeseneken: ‘Je kunt het vergelijken met ons lichaam waar het zenuwstelsel de pijn of de infectie lokaal detecteert, deze info naar de hersenen stuurt, die dan optreden als controleorgaan dat vervolgens de cellen aanstuurt om het probleem op te lossen. We kunnen veel leren van de manier waarop de evolutie het meest gesofisticeerde systeem ooit gemaakt heeft: ons lichaam en – vooral – onze hersenen.’

In de toekomst zullen elektronische systemen zichzelf monitoren en bijsturen om de negatieve effecten van transistorvariabiliteit tegen te gaan.

Parity check

Er zijn verschillende vormen van variabiliteit die de monitors moeten herkennen. Eerst en vooral: de variatie op tijdstip nul (time-zero variability). Dit is de variatie die je terugvindt bij extreem geschaalde transistoren net na hun fabricage. Alle transistoren gedragen zich lichtjes anders, zelfs nog voordat ze worden belast. Dit kan te verklaren zijn door procesvariaties tijdens het fabricageproces, maar het wordt ook meer en meer veroorzaakt door intrinsieke bronnen zoals willekeurige schommelingen in dotering of line edge roughness. Deze time-zero-variabiliteit wordt groter naarmate de afmetingen van de transistoren kleiner worden.

Ten tweede is er een tijdsafhankelijke variabiliteit: elke transistor veroudert op een verschillende manier tijdens gebruik van het systeem. Dit kan te wijten zijn aan verschillen in belasting, maar ook aan intrinsieke mechanismen zoals random defect trapping. Bij de tijdsafhankelijke variabiliteit moeten we onderscheid maken tussen functionele betrouwbaarheidsproblemen – die het digitale gedrag van de transistor aantasten – en parametrische betrouwbaarheidsproblemen – die de parameters van de transistor aantasten, zoals vertraging, verbruik en signaal-ruisverhouding.

De betrouwbaarheid van het systeem hangt af van zowel de time-zero- als de time-dependent-variatie van de transistoren. Catthoor: ‘En omdat deze variabiliteit meer en meer onvoorspelbaar wordt, hebben we monitors nodig voor beide vormen van variatie. Er wordt veel onderzoek gedaan naar deze monitors, vooral aan universiteiten, maar sommige monitorconcepten zijn al in gebruik vandaag. In geheugenchips, bijvoorbeeld, is foutdetectie relatief eenvoudig door een parity check uit te voeren.’

‘Ook voor rekenkundige chips, waar het minder eenvoudig te integreren is, zijn al functionele monitors voorhanden en gedeeltelijk ook al in gebruik’, weet Catthoor. ‘Parametrische monitors zijn minder voorhanden. Ze worden al wel gebruikt in high-performance toepassingen op basis van extreem geschaalde chiptechnologie.’

Zelfhelende chips kunnen de variatie in systeembelasting (workload) in hun voordeel gebruiken. Dankzij een deterministische voorspeller van de toekomst kan een toekomstige rustperiode (slack) worden voorspeld en gebruikt om te compenseren voor de delay error en de piekbelasting verzachten.

Verhinderen

Dan de controller. Deze moet omgaan met zowel de functionele als parametrische errors. Catthoor: ‘Beide zijn gelinkt met elkaar, maar het is belangrijk om de oorzaak van het probleem op te lossen en niet te focussen op het resultaat. Als vertraging het probleem is, zal dit natuurlijk ook invloed hebben op het functionele gedrag van de transistoren, maar de vertraging is de oorzaak die we moeten aanpakken. Als we daarentegen lokaal bit flipping detecteren, dan moeten we de functionele betrouwbaarheid aanpakken.’

Functionele betrouwbaarheidsproblemen in de huidige generaties geheugens worden aangepakt met error-correcting code (ecc), waarbij bitflip-problemen worden gedetecteerd en gecorrigeerd. Bij geheugens ligt de nadruk sterk op dichtheid van cellen en dus op miniaturisatie. ‘Daarom ook dat schalingsproblemen hier typisch eerst opduiken. Bij verdere verkleining van geheugencellen zal ecc te complex worden, te verspreid en te kostbaar. Nieuwe technieken zullen nodig zijn’, aldus Catthoor.

Samen met de École Polytechnique Fédérale de Lausanne (EPFL) werkt Imec aan workload-afhankelijke functionele mitigatietechnieken voor geheugens en data paths. Catthoor: ‘Er zijn drie niveaus waarop je de mitigatietechnieken kunt integreren. Als je dit doet op niveau van het circuit, dan heb je een generieke oplossing die gebruikt kan worden voor elke systeemarchitectuur en toepassing. Nadeel is wel dat je veel oppervlakte en energie gebruikt.’

‘Het andere extreem is mitigatie op niveau van de toepassing. Deze oplossing is zeer specifiek en moet voor elke nieuwe toepassing opnieuw ontwikkeld worden. De meeste bedrijven zijn hier geen voorstander van omwille van de hoge systeemontwerpkosten. En dan heb je nog mitigatie op niveau van de systeemarchitectuur. Deze is niet te specifiek en vertaalt zich ook niet in een overhead in oppervlakte of energieverbruik. Bij Imec focussen wij en onze academische partners vooral op mitigatietechnieken op architectuur- en circuitniveau. Dit laatste enkel wanneer de fabricagekosten laag gehouden kunnen worden.’

‘Ook voor parametrische betrouwbaarheidsproblemen ontwikkelen we workload-afhankelijke technieken. Hier spelen onze academische partners eveneens een sleutelrol. Samen met de TU Delft ontwikkelen we mitigatietechnieken voor srams op circuitniveau. En met de NTU Athens werken we aan mitigatietechnieken op architectuurniveau. We ontwikkelen een gedeeltelijk proactieve systeemscenario-gebaseerde controller. Het vermijdt dat vertragingsfouten zich verspreiden door het systeem en schade toebrengen op systeemniveau. Op niveau van de transistoren kun je deze fouten niet vermijden, maar je kunt wel verhinderen dat ze op systeemniveau schade toebrengen.’

De proactieve aanpak van betrouwbaarheidsproblemen gebaseerd op de variatie in systeembelasting resulteert in een klein initieel verlies in performance, maar zorgt voor een grote winst op het vlak van systeembetrouwbaarheid gedurende de jaren die daarop volgen.

Zelfhelend

Imec en zijn academische partners willen uiteindelijk een volledig proactieve parametrische betrouwbaarheidsmitigatietechniek ontwikkelen. Hierdoor moeten de gevolgen van vertragingsfouten en functionele fouten worden vermeden. Catthoor: ‘De sleutel tot deze oplossing ligt in de workload-variatie van het systeem. Op basis van een deterministische toekomstvoorspeller voorspel je toekomstige rustperiodes in het systeem, de zogeheten slack, en gebruik je dit om te compenseren voor de vertragingsfout en te mitigeren tijdens een piekbelasting. Op basis van deze informatie over de toekomst pas je de planning van de taken en het toekennen van bewerkingen aan.’

Groeseneken: ‘Enkel met deze volledig proactieve aanpak – een zelfhelende aanpak zo je wilt – is het nuttig om te schalen tot 5 nanometer en verder. Ik geloof trouwens dat dit concept ook in ons lichaam zit. Onze hersenen en ons lichaam zijn niet ontworpen om met constante piekbelastingen om te kunnen gaan. Er wordt rekening gehouden met het feit dat er rustigere periodes volgen op piekmomenten. Deze toekomstige rustperiodes worden gebruikt om te kunnen omgaan met huidige piekperiodes.’

Catthoor: ‘Workload-afhankelijke modellen zijn inderdaad essentieel om betrouwbare systemen te kunnen maken met geschaalde en onbetrouwbare transistoren. Imec brengt de kennis hieromtrent samen: kennis over de monitors, de controllers en de systeemknoppen, die meestal afkomstig is van de universiteiten. Bij Imec combineren we deze kennis met die van onze chiptechnologen om samen simulaties uit te werken en een volledig proactieve mitigatietechniek uit te werken voor de chips van de toekomst.’

‘De discussies met onze industriële partners zorgen er bovendien voor dat het een industrierelevante techniek wordt’, vervolgt Catthoor. ‘Ik verwacht dat chipbedrijven tegen 2025 echte zelfhelende chips zullen maken, en dat consumenten gebruik zullen maken van echt betrouwbare toepassingen.’