Erros e soluções

From Portugal@Folding Wiki

Aqui fica uma lista de erros usuais no Folding@Home, onde é explicada a causa e colocada a eventual resolução.

As recomenações gerais para evitar qualquer tipo de erros é manter o sistema tão estável quanto possivel.

Tabela de conteúdo

EARLY_UNIT_END

Este assunto é desenvolvido com mais profundidade em Early Unit End.

É possivelmente o mais comum de todos os erros, e deve-se a uma destas possibilidades: ou uma WU deficiente ou um sistema instável.

Se isto acontece uma vez isoladamente, muito provavelmente deve-se a uma WU deficiente. Não é um problema e não se devem preocupar com isso. Usualmente acontece quando átomos na WU atingem posições impossíveis e então o processo não pode continuar.

Múltiplos deste problema é um sinal de problemas no vosso PC. Demasiado Overclock ou problemas de aquecimento geram este erro. É aconselhável parar o F@H se este ocorrer mais do que uma vez por semana. Façam testes de saturação ao CPU (usem o stressCPU) e memórias (CPU, FSB e memórias têm de estar estáveis), verifiquem temperaturas e configurações do sistema. EARLY_UNIT_END é na maior parte das vezes causado pelo PC do utilizador, e decerto que deve levar a um exame ao sistema.

Este erro pode ser acompanhado por uma mensagem (LINCS WARNING) que dá mais detalhes técnicos sobre o que aconteceu.

Nota: Vejam a descrição sobre "-forceasm" que causam SPECIAL_EXIT em alguns PC baseados em AMD. Se estão a correr o folding num AMD Athlon XP com core Barton ou Thoroghbred, devem remover a opção "-forceasm" que os vossos problemas devem desaparecer.


FILE_IO_ERROR

É um erro que acontece quando operações de disco correm mal. É um erro muito comum. Acontece muito desde o Gromacs Core 1.46. Normalmente acontece quando temos um erro de hardware, algo como “Write 0010, read back 0011". Se este erro ocorrer, certifique-se de que o disco está em bom estado: corra o ScanDisk, CHKDSK ou fsck. Certifique-se ainda de que o bus IDE está activo, que os cabos IDE estão em bom estado e se o disco não está mesmo a deixar de funcionar.

Também ocorre se duas Consolas a trabalhar na mesma WU, ou seja, se por acidente começa um cliente duas vezes, em vez de dois clientes uma vez.


CLIENT_DIED

Isto acontece quando, simplesmente, o cliente é encerrado indevidamente, quer pelo utilizador quer por erros. O core continua a correr, mas visto que não encontra o cliente, é encerrado. Este problema também está relacionado com demasiado Overclock ou pelos timings das memórias estarem demasiado agressivos.


UNKNOWN_ERROR

Um agora raro erro do Gromacs que usualmente acontece quando uma WU corrompida está a ser usada. Actualmente já não é comum e em caso de ocorrer deverão informar-nos, colocando o respectivo fragmento do FahLog. Também deverá efectuar testes ao hardware.


Client-Core Communications Error

Existem vários e deferentes tipos deste erro.

ERROR 0xX é basicamente outra forma do UNKNOWN_ERROR. Pode ser encontrado em Linux se tem problemas na versão Glibc. Também pode ser causado por excesso de Overclock Se não for devido a nenhum destes casos, coloque o FahLog para uma análise mais precisa.. No caso particular do ERROR 0x1, este ocorre muitas vezes se o Core é “morto” enquanto o cliente o processa,ou seja, se por exemplo desligam o cliente pelo task manager.

ERROR 0x________ (no espaço em branco são 8 digitos em hexadecimal), é geralmente um erro geral do Windows. No caso particular do ERROR 0xC0000005 significa que foi violado o acesso à memória. Este é um código-erro standard do Windows para qualquer programa que tente aceder a memória que não controla. Também pode ser um raro erro de Hardware e não é motivo de preocupação. Versões desactualizadas de cliente ou cores podem também ser a causa. Para exclerecimento, coloque o FahLog que geralmente encontra-se a causa.


BAD_FRAME_CHECKSUM

No seu FahLog aparecerá algo do género:

 [01:23:45] Header on frame 220 differs from expected header
 [01:23:45] Got: A028B-5C-3E84B02E-EA1B7D4: 0220
 [01:23:45] Expected: A028B-5C-3E84B02E-EA1B7D4: 0219

Note que as duas linhas de hexadecimal são iguais. Este erro ocorre com unidades Tinker. Uma das causas conhecidas é quando dois ou mais clientes são colocados na mesma directoria. Muitas vezes, por muito estranho que pareça, este erro ocorre como EARLY_UNIT_END mas apenas é detectado no final da WU processada. BAD_FRAME_CHECKSUM, semelhante ao FILE_IO_ERROR do Gromacs, também pode significar um erro de Hardware que ocorre quando existe uma discrepância entre o que foi lido e o que era esperado: algo como escrever 101010 e ler 110110. Mais uma vez, só é detectado quando a unidade é terminada.


SPECIAL_EXIT

Este erro significa que algo desconhecido ocorreu “dentro” do core Gromacs. A única causa conhecida é quando “-forceasm” é aplicado a um sistema AMD que não está totalmente estável. CPUs com problemas conhecidos são o Thoroughbred B, Barton e o Opteron. Neste caso, estará associado a um EARLY_UNIT_END (ver em cima). Remova o “-forceasm” que resolverá o problema. Estes erros são cada vez menos comuns.

Se não está a usar a flag “-forceasm”, deverá colocar o log pois poderá ser um problema sério.

Ferramentas pessoais
Portugal@Folding Wiki