ct

    Phenom

    Termos técnicos GdH



    O Phenom é o primeiro processador Quad-Core da AMD (o Quad-FX não conta, pois nele temos dois processadores dual-core na mesma placa mãe, e não um único processador com 4 núcleos)

    O Phenom é baseado na arquitetura batizada de "Barcelona", por isso abordo os dois termos em um único significado.

    Apesar possuir nada menos do que 463 milhões de transístores, as versões iniciais do Barcelona ainda serão produzidas usando a técnica de 0.065 micron (65 nanômetros), mas a AMD pretende produzir versões de 0.045 micron a partir da segunda metade de 2008.

    Relembrando, os Athlons, Durons e Semprons de 32 bits fazem parte da plataforma K7, enquanto os Athlon 64, X2 e FX fazem parte da plataforma K8. Para evitar trocadilhos a AMD decidiu pular o "K9" (que é o nome de uma unidade de cães farejadores), de forma que o Barcelona e derivados formam a plataforma K10.

    O die do Barcelona é composto por 4 núcleos idênticos, cada um contendo seu próprio cache L1 (de 128 KB, dividido em dois blocos de 64 KB, para dados e instruções) e 512 KB de L2. Entre os processadores temos os circuitos referentes ao Crossbar Switch (o componentes responsável por dividir as requisições entre os dois cores e controlar o acesso de ambos ao controlador de memória, entre outras funções) e outros circuitos de gerenciamento.

    O controlador de memória é compartilhado por todos os núcleos, assim como o cache L3, também compartilhado pelos 4 núcleos. O Barcelona inclui também quatro links HyperTransport. Um é usado para a conexão com o chipset, enquanto os outros três ficam disponíveis para a comunicação com outros processadores, o que permite a criação de sistemas com dois ou até mesmo 4 processadores, cada um com 4 núcleos.

    À primeira vista, parece que o Barcelona é uma simples expansão do Athlon 64 X2, onde foram adicionados mais dois núcleos e o cache L3 compartilhado, de forma a produzir um sistema similar ao Quad-FX, porém composto de um único processador. Mas, uma análise mais minuciosa revela outras melhorias.

    Além de adicionar os dois núcleos adicionais, a AMD fez um trabalho de aperfeiçoamento no X2, eliminando gargalos e adicionando novos recursos, de forma a desenvolver um processador capaz de competir em pé de igualdade com o Kentsfield e o Penryn da Intel.

    A primeira mudança diz respeito ao processamento das instruções SSE, área onde o Conroe e os demais processadores baseados na plataforma Core superam o Athlon 64 por uma boa margem. O problema fundamental da arquitetura K8 neste quesito é o fato de serem utilizadas unidades SSE de 64 bits. Isso faz com que instruções SSE de 128 bits precisem ser divididas e processadas na forma de duas instruções de 64 bits separadas, que consomem dois ciclos de clock.

    Em comparação, o Conroe é equipado com unidades SSE de 128 bits, capazes de processar as instruções em um único ciclo. Embora isso tenha representado um grande aumento no volume de transístores do processador, a AMD conseguiu equilibrar a balança, também equipando o Barcelona com unidades SSE de 128 bits.

    A ampliação das unidades SSE foi acompanhada também por melhorias no cache e nos decodificadores. O K8 era capaz de realizar duas transferências de 64 bits por ciclo do cache L1 para as unidades SSE, e os decodificadores de instruções eram dimensionados para alimentar as unidades de execução com 16 bytes de instruções por ciclo. No Barcelona, as transferências do cache L1 para as unidades SSE passarem a ser de 128 bits e os decodificadores passaram a ser capazes de alimentar as unidades de execução com 32 bytes por ciclo, tudo dimensionado de forma a acompanhar a ampliação das unidades SSE.

    A AMD chama esse conjunto de melhorias de "SSE128". Você vai ver várias referências ao termo no material publicitário daqui em diante.

    Com relação ao acesso aos caches, o Barcelona continua sendo inferior ao Penryn e ao Conroe, já que eles possuem caches muito maiores. Ao optar por utilizar um controlador de memória integrado no K8 e, em seguida, por utilizar arquitetura quad-core no Barcelona, a AMD sacrificou um brutal número de transístores de que outra forma poderiam ser utilizados para incluir um grande cache L2, assim como nos processadores Intel.

    A principal arma do Barcelona contra as deficiências no cache é o controlador de memória integrado, que recebeu duas pequenas melhorias. Em primeiro lugar, em vez de um grande controlador de memória de 128 bits, que realiza acessos aos dois módulos de memória simultaneamente, ele passou a incluir dois controladores de 64 bits independentes. Isso representa uma pequena redução nos tempos de latência, pois duas leituras podem ser realizadas de forma independente, permitindo que sejam realizados dois acessos (de 64 bits) a endereços diferentes, ao invés de um único acesso (de 128 bits) a endereços sequenciais.

    Outra melhoria foi uma expansão dos buffers do controlador de memória, desenvolvida para tirar melhor proveito dos bursts oferecidos pelos módulos DDR2 e DDR3. Basicamente, os módulos de DDR2 e DDR3 oferecem taxas de transferência muito elevadas, mas em compensação trabalham com tempos de latência relativamente altos. Ao invés de realizar várias operações de escrita separadas (tendo que arcar com um lento acesso inicial para cada uma delas), o controlador pode acumular um certo volume de dados e escrevê-los de uma vez em um único burst de operações de escrita. Isso permite que as operações de escrita tomem menos tempo, deixando mais ciclos livres para as operações de leitura.

    Inicialmente o Barcelona incluirá um controlador de memória DDR2, mas a AMD já deixou o terreno pronto para o lançamento de futuras revisões do processador com suporte a memórias DDR3, que devem ser lançadas por volta do final de 2008.

    Em seguida temos as melhorias no funcionamento dos caches, desenvolvidas de forma a melhorar sua eficiência.

    Novos dados, selecionados pelo circuito de prefetch, são carregados diretamente para o cache L1, ao invés de passarem primeiro pelo cache L2, minimizando o tempo de acesso inicial. Nem todos os dados carregados pelo circuito de prefetch são úteis, já que ele trabalha tentando "adivinhar" de quais dados o processador precisará em seguida, mas o fato do processador possuir 128 KB de cache L1 permite que a AMD se dê ao luxo de armazenar alguns dados desnecessários de forma a acelerar o acesso aos demais.

    Conforme novos dados são carregados, informações antigas vão sendo descartadas. Entretanto, em vez de serem apagadas, as informações são movidas para o cache L2 e em seguida para o cache L3 compartilhado, onde podem ser recuperadas rapidamente caso sejam necessárias mais tarde.

    Ou seja, em vez de armazenar um grande volume de informações nos caches, como no caso dos processadores Intel, a AMD optou por usar um cache mais "fluído" onde é priorizado o tempo de acesso à novas informações. Combinadas com as melhorias no controlador de memória, este novo sistema tem tudo para oferecer um ganho de mais alguns pontos percentuais em relação ao desempenho dos Athlon X2.

    O uso de caches L1 e L2 independentes para cada núcleo permitiu que a AMD desenvolvesse um sistema de gerenciamento de energia bem mais eficiente que o do Kentsfield. Cada núcleo é basicamente independente dos demais, de forma que a freqüência de operação de cada um pode ser ajustada de forma independente.

    O processador pode manter apenas um dos núcleos ativo enquanto executa operações leves, por exemplo, mantendo os outros três operando a freqüências reduzidas. Esse sistema de gerenciamento independente é similar ao que a Intel pretende implantar no Nehalem, porém disponibilizado um ano antes. 

    Outro pequeno conjunto de melhorias foi feito no circuito de branch prediction, responsável por "adivinhar" qual caminho o processador deve seguir enquanto não conhece o resultado de operações de tomada de decisão. Além de ter ganhado um circuito aprimorado, capaz de calcular o resultado de derivações indiretas (assim como no Conroe), o histórico de operações foi dobrado de tamanho.

    O histórico armazena os resultados de operações de tomada de decisão executadas anteriormente, informações que são usadas pelo circuito de branch prediction para prever o caminho mais provável para novas operações. Com um histórico maior, o circuito de branch prediction torna-se mais eficiente, embora seja muito difícil calcular o ganho baseado apenas em informações teóricas.

    As "derivações indiretas" (indirect branches) são usadas em funções que envolvem diversas possibilidades, como ao usar funções "case" ou "switch" em que o programador estabelece diversas possibilidades, de acordo com o resultado de uma condição. Como era de se esperar, essas operações representam um desafio muito maior para o circuito de branch prediction do que as funções "if", onde existem apenas duas possibilidades, mas prevê-las corretamente aumenta de forma considerável a eficiência do processador.

    O nome "Barcelona" é apenas o codenome do projeto, assim como no caso do Penryn e do Nehalem da Intel. As versões do Barcelona destinadas a servidores serão vendidas sob a marca "Opteron", enquanto as versões para PCs domésticos serão chamadas de "Phenom" (de "Phenomenal"). O nome tem justamente o objetivo de diferenciá-lo dos Athlons 64 e X2 e enfatizar que se trata de uma nova arquitetura.

    As versões desktop do Barcelona respondem pelos nomes de "Agena FX" (a versão com 4 cores, quase idêntica ao Barcelona destinado a servidores), "Agena" (uma versão quad-core levemente simplificada, sem os links HyperTransport usados em sistemas com dois processadores) e "Kuma" (uma versão simplificada, com apenas dois núcleos).

    Tanto o Agena quanto o Agena FX serão equipados com 128 KB de cache L1 e 512 KB de cache L2 por núcleo, além do cache L3 compartilhado de 2 MB. Assim como os processadores AMD anteriores, eles utilizam a arquitetura de cache exclusivo, onde os dados armazenados nos caches não são duplicados. Graças a isso, podemos dizer que eles possuem um total de 4.5 MB de cache.

    Apesar de possuírem apenas dois núcleos, os processadores baseados no core Kuma manterão o cache L3 de 2 MB. Combinado com as outras melhorias na arquitetura, a presença do cache L3 fará com que eles ofereçam um desempenho consideravelmente superior ao de um Athlon 64 X2 do mesmo clock.

    Com a introdução do Phenom, teremos uma mudança radical dentro da linha de processadores AMD e também um novo sistema de numeração dos processadores, que está sendo implantada aos poucos, ao longo da segunda metade de 2007. 

    Em primeiro lugar, todos os processadores da linha Athlon 64 foram renomeados para apenas "Athlon", sem o "64". A AMD chegou à conclusão de que o "64" passou a ser redundante, já que a Intel também passou a incluir o suporte a instruções de 64 bits em todos os seus processadores. O "Athlon 64 X2" passou a se chamar apenas "Athlon 64".

    Com o lançamento do Phenom, o Athlon X2 assume a posição de processador "mainstream", e toda a linha de processadores Athlon single-core é descontinuada, mantendo apenas o Sempron como opção single-core de baixo custo, concorrendo diretamente com os Celerons 4xx da Intel.

    Entre os processadores high-end, temos três versões do Phenom: X4 (a versão original, com 4 núcleos), X2 (a versão com 2 núcleos) e o Phenom FX, a linha destinada a entusiastas, que substitui o Athlon 64 FX e o Quad-FX.

    O antigo índice de desempenho, que servia basicamente para comparar o desempenho dos processadores com modelos do Pentium 4, deixou de fazer sentido com o lançamento do Core 2 Duo, de forma que a AMD optou por descartá-lo em favor de um novo sistema de numeração (similar ao atualmente usado pela Intel), onde cada processador recebe um código de acordo com a sua "posição hierárquica", sem relação direta com o desempenho.

    Na nova terminologia, todos os processadores recebem um código composto por duas letras e quatro números, como em "BE-2300".

    A primeira letra indica a classe do processador, indicando se ele é um processador "premium", de alto desempenho, intermediário ou de baixo custo. A letra "G" é reservada para os processadores Phenom, a letra "B" é usada pelos Athlon X2 de clock mais alto, enquanto a letra "L" (de low-cost) é reservada aos Semprons e Athlon X2 mais lentos.

    Em seguida temos uma segunda letra que indica o consumo. A letra "P" (de "premium") é usada para processadores com TDP acima de 65 watts, a letra "S" (de "standard") indica processadores com TDP de 65 watts ou menos, enquanto a letra "E" (de "Energy Efficient") indica os processadores com TDP de 45 watts ou menos.

    Dentro dos quatro números, o primeiro indica a família à qual o chip pertence, onde um "7" indica que é um Phenom X4, um "6" indica que se trata de um Phenom X2, um "2" é usado no caso dos Athlon X2 e o "1" é reservado aos Semprons single-core.

    Os três números seguintes indicam a posição do chip dentro da família, como em "BE-2300", "BE-2350" e "BE-2400". Os números não são uma indicação direta do clock ou performance do processador, servem apenas para diferenciar os processadores dentro de uma mesma família.

    Os primeiros representantes da nova terminologia são os Athlon X2 BE-2300 (1.9 GHz, 2x 512 KB) e BE-2350 (2.1 GHz, 2x 512 KB) e BE-2400 (2.3 GHz, 2x 512 KB), três processadores da série "Energy Efficient" (ainda baseados no core Brisbane), com TDP de apenas 45 watts, vendidos, nos EUA, por menos de US$ 100.

    Eles serão seguidos pelos Sempron LE-1100 (1.9 GHz), LE-1150 (2.0 GHz), LE-1200 (2.1 GHz), LE-1250 (2.2 GHz) e 1300 (2.3 GHz). Estes novos Semprons são baseados no core "Sparta", produzidos usando a técnica de 0.65 micron e se destinam a placas AM2 e AM2+.

    Como você pode ver, a nova terminologia da AMD foi desenvolvida como resposta à terminologia adotada pela Intel com o Core 2 Duo, já que continuar usando o Pentium 4 (um processador ultrapassado) como parâmetro, não faria muito sentido.


    Blog:

    Add to Google

    » Gostou do texto? Veja nossos livros impressos:
    Hardware | Redes | Servidores | Kurumin 7

    ... ou encontre o que procura usando a busca:

cb
Livros de Carlos E. Morimoto HOME