Ambiente de uso X envelhecimento computadores X qualidade componentes e montagem X overclock

Para reduzir a velocidade de envelhecimento dos computadores você precisa climatizar o ambiente onde eles operam.

Precisa manter temperatura e umidade controladas e filtrar a poeira.

Leia agora como os agentes ambientais, qualidade dos componentes e montagem, podem afetar a estabilidade, desempenho e vida útil dos seus computadores.
Veja algumas dicas de manutenção que podem restabelecer o bom funcionamento de seus computadores e até algumas para melhorá-lo.

Também aprenderá sobre os detalhes que diferenciam os computadores e servidores de maior confiabilidade e desempenho.

Veja também como NÃO cuidar de seu computador aqui .

E veja como NÂO instalar seu servidor aqui .

 

- O surgimento dos sintomas

Há algumas semanas comecei a enfrentar travamentos, congelamentos da máquina desktop. Esse problema apareceu quando comecei a filtrar spam pelo SpamAssassin com novos métodos detalhados noutro artigo desse blog.

Como utilizo Debian GNU/Linux Stable mesmo no desktop, fiquei desconcertado. Afinal, Debian GNU/Linux Stable não trava.

Reitero: Debian GNU/Linux não trava.

A probabilidade disso acontecer é ridiculamente baixa. Procure pelos fóruns e listas de discussão para você mesmo confirmar a estabilidade de sistemas Debian Stable (Debian sempre tem várias versões *simultâneas * : Stable (oficial), Testing, Unstable, e até Experimental (para desenvolvedores)).
Mas o problema aparecia com freqüência preocupante ao filtrar as mensagens.
Iniciei a pesquisa sobre o problema.

- Seria hardware e/ou software?

Congelamentos e travamentos normalmente, em Debian GNU/Linux Stable, são associados a problemas de hardware.
A maior probabilidade é algo errado com RAM.
Usei memtest86+ para verificar a RAM. Esse programa nem precisa de sistema operacional para rodar. Faz-se um boot com mídia apenas contendo o grub e carrega só o programa. Isso elimina quase todas as variáveis de software.

Horas a fio rodando e nenhum problema.

Reduzi o número de programas rodando para fazer todo o processo de filtragem de spam carregar apenas em RAM física e desabilitei o swap. Busquei verificar se haveria algo de errado com o disco de swap.

O problema continuou com mesma freqüência.

Desabilitei seletivamente cada função de filtragem do conjunto antispam e não houveram mudanças definitivas. Mas houveram mudanças na freqüência do problema.

Porém, muitos testes seletivos indicaram que não era definido QUAL dos filtros e processos causava o problema, mas a QUANTIDADE de processos e filtros simultâneos afetava a freqüência bem como a *quantidade de caixas postais* filtradas *simultaneamente*, independentemente de quais delas fossem.

Mais filtros e menos caixas postais e menos filtros e mais caixas postais, em qualquer combinação de fatores, cessavam os travamentos, congelamentos.

Conjecturei que pudesse ser um problema de escalabilidade dos programas envolvidos.

Mas SpamAssassin, Debian Stable e todos os programas envolvidos na filtragem já estão amplamente testados em instalações grandes (milhares de contas de email por servidor) em provedores e empresas mundo afora. Nenhum relato de problemas de escalabilidade com estes programas.

Na mesma época, o clima na grande Porto Alegre, RS, se alterou e a temperatura ambiente subiu alguns graus. Aumentou a freqüência dos congelamentos.

Logo, concluí que deveria ser aquecimento.
Instalei alguns jogos em 3D (Tuxkart, Penguin Racer, Torcs, Quake III demo) e vi a utilização de 100% de cpu constante. Mas sem congelamento, travamentos.

Então, quando fiz rodar simultaneamente jogos 3D e a filtragem antispam citada, o congelamento era certo.

Isso levou a uma nova abordagem: a combinação da forma de operação dos programas sobre o hardware poderia causar o problema?

Analisando um pouco mais da operação dos filtros, verifiquei que as funções problemáticas eram os filtros que envolviam extração de padrões de linguagem do corpo principal das mensagens e cálculos de CRC como assinaturas e posterior consulta a bases de dados colaborativas.

Como as comunicações de rede no Debian GNU/Linux e programas associados ao SpamAssassin já estão plenamente sólidas, o problema deveria estar nos cálculos matemáticos.

Haveria alguma race condition?

Improvável, já que os filtros no SpamAssassin já foram testados em larga escala.
O provável é que muitos filtros antispam simultâneos calculando exigem a mesma área do processador, causando um aquecimento em surtos seguidos dessa mesma área, sem tempo hábil para dissipação do calor gerado.

Mais alguns dias se passaram e a temperatura ambiente elevou-se bastante.

Assim, pude testar sob novas condições. Rodando jogos 3D apenas, após algum tempo houve congelamento, travamento após 20 min. O que antes não acontecia.
Em seguida, reconfigurei a BIOS para uma freqüência de clock mais baixa (underclock). Demorou bem mais tempo nesta alta temperatura ambiente, aproximadamente 1h para ocorrer um travamento, mesmo filtrando spam.

Portanto, a forma de operação dos programas denunciava algum tipo de problema de hardware.

- Poeira, umidade, fonte de alimentação.

Ao abrir o gabinete do computador, vi uma quantidade de poeira depositada nas pás dos ventiladores e suas grades, nos dissipadores, nas áreas circundantes.

Não chegava a ser nada como estes casos de horror aqui . Mas já era visível algum acúmulo. Fica mais fácil entender o problema vendo estas fotos de casos extremos.

A poeira, mesmo em fina camada, é um isolante térmico .

Nas pás dos ventiladores, também prejudica a eficiência do mesmo.

Sobre componentes e circuito impresso, torna-se como uma esponja, retendo umidade, facilitando corrosão e eventuais fugas de corrente e até curto-circuitos em casos extremos.

As fugas de corrente podem provocar os problemas aleatórios. Corrosão causa maus contatos.

Nas grades do gabinete, os pontos onde havia maior acúmulo apresentaram sinais de corrosão.

Mas como remover a poeira dos ventiladores, dissipadores e placas de circuito?

O modo correto é lavar as placas com álcool isopropílico (que não contém água, 0%), enquanto devidamente aterradas para evitar eletricidade estática. Lavar com uma escova bem macia, esfregando muito levemente para sequer deslocar algum componente.

Resolvi arriscar mais, fiz uma oração ao anjo protetor dos componentes eletrônicos e, mantendo o computador aterrado com um fio até o terceiro pino da tomada aterrada, usei um espanador de plumas e toda paciência possível para limpar as placas.

Haviam depósitos de pó sobre a memória ram e sobre os componentes da fonte da cpu, por causa da geometria do dissipador e sentido do vento do cooler.

Os ventiladores foram removidos para a limpeza.

O dissipador da cpu removi, retirei a pasta térmica utilizando lenço de papel (mancha terrivelmente qualquer roupa) e LAVEI em água corrente, com escova e paciência. Mudou até a cor do alumínio, que estava escurecida.

Sequei com panos e um secador de cabelos para assegurar-me que não haveria água.

Apliquei uma camada de 0,5 mm de pasta térmica no dissipador (UM ERRO! como verás mais adiante) e remontei tudo cuidadosamente.

Ao reiniciar o computador e atingir condição idle inicial (uns 10 minutos, sendo que condição estável correta é após 1 hora), vi que a temperatura da cpu baixou seis graus centígrados.

Apenas a remoção da poeira baixou 6 graus na temperatura!

Fiz novo teste sob carga, mas voltou a apresentar travamento / congelamento, porém com menor freqüência.
Observei mais atentamente as medidas dos sensores do lm-sensors, usando xsensors, por mais tempo e vi que quando em underclock as tensões de alimentação estavam normais.
Mas em clock normal a cada pico de uso de cpu havia uma queda de tensão na linha de +5 Vdc que a levava abaixo dos 4,75 Vdc mínimos. Às vezes até 4,69 Vdc.

Atenção: os Pentium IV e AMD 64 derivam a energia principal da tensão +12 Vdc.

Parece pouco, mas componentes eletrônicos são bem sensíveis. E a especificação é clara nos limites.

Pesquisando em sites e fóruns sobre Overclock e dicas de hardware, vi algumas dicas sobre fontes incapazes de entregar a potência estável necessária causando travamentos. Principalmente as fontes baratas, dessas que vêm junto com os gabinetes.

Bem, deve haver alguma diferença entre fontes de R$ 40,00 e outras de R$ 400,00 como Zalman, Enermax, Seventeam, Akasa, etc.

Imaginei que a vida útil da fonte de alimentação tivesse chegado ao fim.
Então lembrei que assim com a oxidação pela umidade havia atacado grades de ventilador no gabinete e até as extremidades do dissipador da cpu, poderia ter atacado as conexões da fonte de alimentação e estar causando mau-contato e aumento de resistência elétrica nas conexões.
Removi e reinseri os conectores da fonte de alimentação 5 vezes cada um.
Em bons conectores a operação de remoção e reinserção tem um efeito auto-limpante básico.
Remontei tudo e novos testes demonstraram que mesmo na freqüência de clock nominal as tensões da fonte de alimentação permaneciam dentro da faixa de tolerância mesmo durante os picos de uso de cpu na operação de filtragem.

Que falta fazem conectores banhados a ouro...

Testes mais longos mostraram que houve melhora na freqüência dos travamentos.
Ficaram mais esporádicos, mas continuavam a ocorrer.
Agora a temperatura ambiente precisava estar mais alta para ocorrerem.
Seria necessária mais pequisa.

- Qual a direção do vento?

Mais pesquisa em sites , site2 , site3 , sobre refrigeração de componentes eletrônicos e overclocking e descobri que, dependendo da geometria do dissipador (site ), de obstáculos físicos em torno, de eventual fluxo de ar circundante, a correta escolha direção do vento pelo cooler pode ajudar a reduzir mais a temperatura.

Desmontei o ventilador do meu barato e comum dissipador + cooler para o Athlon XP e o remontei com direção do vento invertida, puxando o ar do dissipador em vez de empurrar para o dissipador.

Esta simples providência baixou mais dois graus centígrados a temperatura idle da cpu!

Provavelmente em conjuntos dissipador + cooler caros isso já foi estudado pelo fabricante e em alguns é até muito difícil se não impossível mudar a direção do vento. Mas analise o seu caso.

- A interface térmica e o dissipador

Por vários dias tudo correu bem e parecia que a solução havia sido encontrada. 
Até que a temperatura ambiente subiu novamente.
Novas pesquisas em sites , site2 , sobre o assunto evidenciaram novos detalhes .
O calor gerado na pastilha de silício do microprocessador tem de atravessar um caminho com vários diferentes materiais até chegar ao ar.
Da pastilha de silício até a parte externa do microprocessador é uma questão de projeto e responsabilidade do fabricante do microprocessador.
Alguns, como no caso do Athlon XP, apresentam uma face de substrato de silício diretamente exposta para o contato com meio de dissipação do calor. Quanto menos barreiras no meio do caminho melhor.

No caso do dissipador simples utilizado então temos a seguinte seqüência:

microprocessador -> interface térmica -> dissipador -> ar ambiente
examinando com maior detalhe se observa numa montagem mal feita:
microprocessador -> ar -> interface térmica -> ar -> dissipador -> ar ambiente
microprocessador -> óxido -> ar -> interface térmica -> ar -> óxido -> dissipador -> óxido -> ar ambiente.

O material mais usado para interface térmica ainda é a venerável pasta térmica.
Só que a pasta térmica é 15 a 22 vezes MENOS condutora de calor que o cobre metálico (site sobre cobre industrial). Até as melhores marcas.
Por que não apoiar diretamente o dissipador sobre o microprocessador?
Porque vistas sob o microscópio, mesmo as superfícies polidas como espelhos são como um relevo de montanhas e vales.
Ao tentar o contato, o resultado é um encaixe muito ruim entre picos de montanhas e alguns vales.
Uma quantidade de ar fica aprisionada entre as superfícies.
E ar parado é quase 15 MIL VEZES pior condutor de calor que o cobre. Na prática, um isolante térmico.

A função da pasta térmica é preencher os vales, nivelando a superfície a nível microscópico para obter uma superfície realmente precisamente plana, expulsando o ar.

Aqui já podemos ver algumas características importantes atuando:

- Pasta térmica

A pasta térmica deve ser constituída por um veículo de viscosidade adequada, preferencialmente isolante elétrico, e um pó (na tecnologia atual) finíssimo de material condutor térmico. Quanto mais fino e melhor condutor térmico o pó, melhor.

Mas bons condutores térmicos têm inconvenientes, como serem condutores elétricos (metais) ou tóxicos (óxido de berílio). O óxido de berílio é tão bom condutor térmico como o cobre e ótimo isolante elétrico. PorémMUITO tóxico e cancerígeno , causando dificuldades respiratórias e exigindo extremos cuidados no manuseio. Pós metálicos podem provocar curto circuitos.

No atual estágio tecnológico e conveniência de materiais, a pasta térmica ainda é a opção mais viável, eficaz e conveniente.
Outros materiais e formatos, como fitas adesivas e elastômeros, evoluem mas ainda não alcançaram o desempenho das novas formulações de pastas térmicas.
Mesmo a tradicional de graxa de silicone e pó de óxido de alumínio é uma boa opção.
Existem graxas de formulações avançadas e também de materiais como pó de prata, ouro, grafite, cobre, óxido de zinco.

Você pode ver tabela de condutividade térmica de alguns não metálicos aqui , do cobre aqui , e tabela de conversão para sistema métrico aqui .

Lembrar que existem diferentes ligas de cobre.

- Envelhecimento da pasta térmica

As pastas com graxa de silicone sofrem problemas de migração e difusão pela superfície.
Algumas pastas, mesmo de outros tipos de graxa, também sofrem problemas de endurecimento e ou derretimento, expansão e contração excessivos, pelos ciclos térmicos de operação.
O problema é que saem do local exato, espalham-se até atingir outros componentes, ou deixam de preencher os vales da superfície, ou têm coeficientes de dilatação térmica muito diferentes dos metais e materiais usados nos microprocessadores e dissipadores.
Novas formulações prometem sanar estes problemas.
Enquanto isso, é bom substituir a pasta térmica anualmente, se possível.

- Camada de pasta térmica

Como a pasta térmica ainda é várias vezes menos condutora de calor que o cobre ou alumínio, a função dela deveria se restringir apenas ao projetado: expulsar o ar dos vales e preencher com um melhor condutor térmico. Nada mais que isso.
Daí que a camada de pasta térmica tem de ser a mais fina possível.
Apenas o mínimo suficiente para cumprir sua função básica.

- Planicidade e rugosidade da superfície do dissipador

Já que a condução de calor ocorrerá por superfícies em contato, e superfície do microprocessador é PLANA com uma precisão de décimos de mícrons, a superfície do dissipador deveria também ser PLANA com tal precisão.
A rugosidade da superfície deveria ser tal que nem existissem vales microscópicos, um acabamento espelhado de tão polido, muito menos com rugosidades visíveis a olho nu.
Por isso que em dissipadores caros a superfície é polida como um espelho e PLANA com uma precisão micrométrica.

- Óxidos na superfície do dissipador

óxido de cobre é dezenas de vezes pior condutor térmico que o cobre.
Em poucos minutos a umidade e o ar oxidam uma superfície limpa . Em alguns dias já se perceberá pequeno escurecimento.

Buscando resolver vários desses problemas, alguns dissipadores muito caros possuem a face de contato polida espelhada e banhada a ouro.

Isso elimina os problemas da oxidação, planicidade e rugosidade. 
Se a camada for suficientemente espessa, poderia até dispensar a pasta térmica se fosse pressionado com força adequada.
Isto porque o ouro puro é muito macio e poderia conformar-se microscópicamente com a superfície do microprocessador. Isso teria de ser testado, pois uma pressão excessiva poderia danificar o microprocessador.
O teste seria montar com a mola fornecida pelo fabricante e testar com e sem pasta térmica para avaliar resultados.

- Recuperando e melhorando o dissipador

Será preciso remover o óxido para recuperar. Para melhorar, será necessário remover as rugosidades e manter a superfície de contato plana, se possível polir até obter acabamento espelhado.
Uma técnica de quem faz overclock é popularmente chamada de lapidação do dissipador. Tem um bom tutorial sobre lapidação de dissipadores de calor aqui .

É vital manter a superfície PLANA, o que é BEM difícil com processo manual.

Para polir até espelhamento, muitas e muitas horas de trabalho manual.

Como eu estou utilizando um barato dissipador de menos de R$ 40,00 resolvi arriscar e utilizei uma palha de aço para buscar remover as rugosidades da superfície de cobre.

A superfície já era usinada, com visíveis sulcos deixados pela ferramenta.
Com alguma paciência pude deixar a superfície aceitavelmente polida e razoavelmente plana.

Ao utilizar finíssimas lixas (até nro 2000) conforme o processo manual descrito no tutorial, você precisa prestar atenção às quinas da superfície de contato do dissipador durante o processo. Se começarem a ficar minimamente arredondadas, você está inclinando o dissipador ou aplicando força inclinado durante o deslocamento sobre as lixas.

Idealmente, ficará com cantos vivos REAIS e uma superfície espelhada de qualidade ótica, sem deformações do reflexo.
Esse ideal implicará muitos dias de trabalho manual.

Procure obter acesso a algum aparato mecânico de precisão que mantenha o dissipador na vertical e seja possível fazer o deslocamento horizontal.

- Resultados

Bem, com aproximadamente 1 hora de paciência e palha de aço, o resultado foi que a temperatura média em idle caiu mais seis graus centígrados.

E ainda obtive mais benefícios.

Com a redução das resistências térmicas no caminho, o microprocessador elevou em apenas 3 graus a temperatura em modo de carga máxima em relação à temperatura idle.

O dissipador consegue dissipar mais rapidamente o calor gerado pelo microprocessador.

Para testar, fiz operar simultaneamente a filtragem antispam completa em todas caixas postais, e ainda jogos 3D como Quake III demo, Tuxkart, Torcs.
Nenhum travamento.
E ao encerrar os programas em poucos segundos a temperatura do microprocessador começa a reduzir.

Com as ações corretivas deste artigo, consegui reduzir 14 graus centígrados a temperatura média em idle e ainda aumentar a velocidade e eficácia de dissipação fazendo que a temperatura em máxima carga se elevasse em apenas 3 graus centígrados.

Ainda avaliarei quando a temperatura ambiente chegar próximo aos 40 graus.

Bom lembrar que a cada 10 graus centígrados no aumento da temperatura ambiente (referência a 23 graus),duplica a probabilidade de falhas de componentes eletrônicos.

Portanto, com um ar condicionado você poderia controlar a temperatura, umidade e poeira, e para vários computadores no mesmo ambiente.
Umidade baixa demais favorece eletricidade estática que estraga componentes. Muito alta pode condensar sobre os componentes e causar curto circuitos.
Filtros de poeira devem ser limpos mensalmente, no mínimo. Você pode ver mais alguns resultados positivos sobre filtragem de poeira e alguns equipamentos sugeridos aqui.

Em um futuro artigo contarei mais sobre como escolher um bom dissipador, bom gabinete, sistema de resfriamento, como analisar computadores para alta confiabilidade e desempenho, como servidores e workstations de missão crítica.