Mais tarde adiciono à tua 1ª mensagem alguns links úteis, e talvez lhe mude o titulo para algo mais genérico relacionado com a verificação, etc, se não te importas.
Força, estás à vontade.
Agora, quanto à fiabilidade, se queremos comparar estas coisas também deveríamos criar algumas regras básicas, pois às vezes olhando para saídas isoladas eles vão mudando e muitas vezes até alternando cenários e fica complicado perceber quem viu primeiro o que ou quem viu de forma mais consistente. Pelo que sugeria primeiro definirmos um período temporal (6 e 10 dias ?). E que um modelo tivesse pelo menos 4 saídas consistentes num determinado cenário. Mas pensa tu também nestas regras.
Além disso, acho que só deveriam entrar na avaliação saídas das 00z e 12z, pois as outras do GFS como expliquei uma vez noutro tópico, a grande finalidade delas não é o médio/longo prazo, são uma grande mais valia do modelo para lhe injectar observações intermédias em situações de tempo severo entre outras coisas, e tendem a gerar maiores disparates no médio/longo prazo.
Em primeiro lugar creio que deveríamos verificar de um modo aberto, sem muitas regras e em discussão aberta. Claro que para evitar discussões estéreis e repetitivas poderíamos estipular algumas regras gerais, do tipo:
Acima das 120h só se deveria verificar o padrão atmosférico global, sem preocupações locais, se a depressão foi para Espanha ou ficou junto a Lisboa, se caem 100 mm ou 50 mm, se neva na praia ou só na serra da Estrela... Como o caso de Sábado passado, na minha resposta ao Aurélio, no caso de uma eventual recuo do ECM. Só poderia ir até às 240h, dado que ECM e GEM/CMC não vão além disso, se bem que já houve casos (p.e., a depressão de final de Novembro do ano passado) em que o GFS manteve a mesma previsão, com muito poucas alterações desde as 300 e tal horas até à ocorrência.
Claro que tem que haver alguma consistência, pois caso um modelo saque 4 coisas diferentes em 2 dias vai muito provavelmente acertar numa delas. Na minha opinião, acima das 168h, por exemplo, duas previsões iguais até já é uma previsão consistente, enquanto que abaixo das 72h, uma única mudança importante (GFS, Xynthia) revela inconsistência.
Abaixo das 120h, já se deveria verificar tudo, inclusive saídas das 06z e 18z, ensembles, temperaturas, etc. Em casos como as cut-off no verão, por exemplo, ocorrem várias "trocas" de previsões entre ECM e GFS, e aí falham os dois, e acho que demorará muitos anos até que um modelo de previsão consiga prever com exactidão este tipo de cenários.