Censo 2022
IBGE terá data center dedicado com recursos de computação na nuvem e inteligência artificial
27/06/2022 10h00 | Atualizado em 18/07/2022 08h54
O processamento das informações do Censo Demográfico 2022 já está garantido com um robusto data center de classe mundial, preparado pelo IBGE desde 2019. Computação na nuvem, bancos de dados de alta performance, segurança com criptografia, links de fibra óptica redundantes, ambiente duplicado para recuperação de desastre e até inteligência artificial são alguns dos recursos que compõem a infraestrutura tecnológica dedicada ao processamento do censo. Serão 200 máquinas virtuais, adquiridas nos últimos dois anos, rodando numa nuvem privada nacional.
Para Carlos Renato Cotovio, diretor de informática do IBGE, o grande desafio é passar de uma empresa de 10 mil para 200 mil pessoas. A primeira iniciativa foi mover o data center da Rua General Canabarro, na Zona Norte do Rio, para o segundo andar do prédio, a fim de se evitar inundações comuns na área. O data center principal tem o padrão de classificação Tier III, nível de segurança que identifica a instalação de alta disponibilidade, alto desempenho e baixa latência (tempo de resposta). O data center secundário de São Paulo tem padrão de classificação Tier II, também considerado um bom nível de segurança e desempenho paras soluções de contingência. Nos dois data centers, há recursos como corredores frios e quentes, com fluxo de ar otimizado para manter a temperatura dos equipamentos fria, ao mesmo tempo em que se reduz o consumo de energia. Além disso, todo o sistema de detecção e combate a incêndio é otimizado.
“Esse é o censo da minha vida. Sou funcionário de carreira do BNDES, onde conduzi o projeto de transformação digital, e me transferi para o IBGE para viver a experiência e o desafio do Censo 2022, um projeto gigante que faz a empresa sair de 10 mil funcionários para 200 mil. Essa subida é vertiginosa e exigiu aquisição de equipamentos, contratação de pessoas e a distribuição de recursos tecnológicos. É uma experiência profissional e pessoal. Trata-se de uma operação de tiro curto – apenas quatro meses da pesquisa do entorno, iniciada em junho, e a coleta de agosto a outubro –, que vai se acertando no caminho. É necessário um sentimento de propósito muito grande, e é uma experiência única para qualquer um”, destaca Cotovio.
Dois ambientes, um para pesquisas regulares e outro para o Censo
O Coordenador de Serviços de Informática do IBGE, José Luiz Thomaselli, ressalta que o Censo 2022 é diferente porque atualmente há grandes pesquisas contínuas. A PNAD Contínua é a maior pesquisa do IBGE depois do censo e continuará sendo coletada, processada e divulgada paralelamente. Em 2010, essas pesquisas eram anuais, e trabalhava-se sempre em períodos em que não havia censo.
“Em função disso, decidimos criar dois data centers dentro do Centro de Processamento de Dados do IBGE. Há equipamentos para o trabalho regular do IBGE e infraestrutura dedicada para o trabalho do IBGE no censo. O modelo é o mesmo, a grande diferença é que todos os equipamentos para o processamento do censo são novos”, diz Thomaselli.
Ele explica que todos os 200 servidores são virtualizados e redundantes, em clusters de quatro máquinas para que, caso uma ou duas falhem, as demais continuem rodando. Os sistemas de armazenamento (storage) são de alta performance, ou seja, são discos SSD – semelhantes aos cartões de memória – com alto desempenho.
No caso de um servidor físico, os sistemas estão instalados no equipamento, e ficamos dependentes dele. A vantagem do servidor virtual é que ele pode funcionar como um arquivo que se instala num pen drive e leva-se para onde quiser. Isso dá flexibilidade. Se uma máquina física queimasse o disco, seria necessário instalar todo o conteúdo em outra máquina física. Agora tenho um equipamento físico com várias máquinas virtuais. Se houver falha no equipamento, as máquinas virtuais migram para outro equipamento, e tudo continua funcionando”, esclarece Thomaselli.
Para que isso aconteça, o IBGE implementou uma nuvem privada que está em torno de 800 a 900 máquinas. A nuvem não se restringe ao data center da General Canabarro, no Rio de Janeiro: também chega às Unidades Estaduais formando uma nuvem nacional interna. “Posso movimentar uma máquina de São Paulo para o Rio ou vice-versa. Também usamos a nuvem da Microsoft Azure para baixar os insumos, mapas e aplicativos para os Dispositivos Móveis de Coleta (DMC), os smartphones que serão usados pelos recenseadores na coleta”, acrescenta o coordenador de informática.
Censo terá conectividade de 10 Gbps, 100 vezes mais rápida
Hoje os links de internet do IBGE são dois de 100 Mbps. Os que foram contratados para o censo são de 10 Gbps, cerca de 100 vezes mais rápidos. A ligação do data center do Rio de Janeiro com o de contingência em São Paulo também utiliza dois circuitos de fibra óptica de 10 Gbps, numa configuração LAN to LAN, como se fosse uma conexão local.
“Houve uma estrutura de triangulação formando um anel redundante. O data center da Canabarro, no Rio, está ligado ao da Urussuí, em São Paulo, por link de 10 Gbps; e o data center de São Paulo está ligado ao da Avenida Chile, uma outra porta de entrada no Rio, que, por sua vez, se liga ao data center da Canabarro. É um anel. Caso haja um problema em São Paulo ou no data center da Canabarro, é possível entrar pelo da Chile”, destaca Thomaselli.
“O mundo atual nos impõe velocidade e o IBGE trabalha com informações que retratam o país. O Censo precisa ser veloz e os dados coletados precisam estar disponibilizados rapidamente para a população, para os pesquisadores e para os pensadores de políticas públicas. O investimento é necessário”, ressalta Cotovio.
Segurança contra ataques durante o Censo
Todos os dias o IBGE recebe dezenas de tentativas de ataques, mas conta com uma infraestrutura de segurança em camadas. A primeira é o firewall (cortina de fogo), que isola a rede interna da rede externa. A segunda camada é o firewall de aplicação, protegendo os sistemas de acessos indevidos. Há também um conjunto de equipamentos reunidos num barramento interno, separando-os das máquinas do IBGE.
“O IBGE contratou um software especialista para monitorar o ambiente e uma empresa responsável por verificar vulnerabilidades nos sites, além de ter adquirido ferramentas de administração. O IBGE lida com informações sensíveis, e tem uma segurança forte comparada a outras empresas e consegue um bom isolamento. Além de separarmos o data center do censo, contratamos empresas especializadas para nos dar suporte”, assegura Thomaselli.
Os bancos de dados onde rodam os microdados, utilizam o servidor de alta performance Exadata – plataforma de computação otimizada para executar bancos de dados Oracle. O servidor tem um firewall dedicado para proteção dos dados. O banco está instalado no data center da Canabarro e replicado no data center secundário de São Paulo.
“Temos um outro banco de dados, o SQL Server da Microsoft, que está com as bases de dados da contratação dos profissionais que vão trabalhar no censo e também está no Rio e replicado em São Paulo. Todas as máquinas do IBGE são de arquitetura aberta. Desligamos o mainframe IBM em 2017”, diz o coordenador de informática.
Data center redundante para recuperação de desastre
Thomaselli explica que os sistemas são cada vez mais dependentes da internet. No censo, é preciso garantir a continuidade da coleta: o recenseador chegar na casa das pessoas e colher os dados. Só que há um risco grande do dado permanecer dentro dos DMCs, que podem ser furtados, sofrer uma queda ou parar de funcionar. Por isso, quanto mais rápida a transmissão das informações, maior a segurança para que não se percam os dados. “O data center de São Paulo tem a finalidade de garantir a operação em campo, caso haja falha no data center principal. A coleta acontece em tempo real”, diz Thomaselli.
Inteligência artificial
O coordenador esclarece que que todo dado transmitido entra nos data centers da Canabarro e de São Paulo, e assim alimentam uma base de dados utilizada pelos técnicos para verificar consistência dos dados e rodar programas de crítica. Paralelamente, há uma estrutura de data lake, um grande repositório de base de dados onde se rodam programas de Business Intelligence que comparam os dados de outras pesquisas e geram alertas quando há algo anormal.
“Isso vai gerar dashboards, painéis com gráficos para exibição dos dados. Além disso, temos o SAS, ferramenta estatística amplamente utilizada pela diretoria de pesquisas que permite rodar questões para verificar se a informação tem qualidade ou precisa de algum ajuste", completa o coordenador.
O IBGE também utilizará recursos de inteligência artificial para avaliar as informações a partir da codificação já utilizada em censos anteriores. Foi uma solução desenvolvida internamente pela equipe técnica do IBGE que pode identificar inconsistências como alguém com 10 anos de idade que se diz aposentado.
“Com tanto processamento de críticas, se obtém um censo com qualidade muito superior em relação aos dados coletados, o que é um enorme diferencial não somente para a operação censitária mas também para os resultados do censo que embasarão tantas políticas públicas do país”, diz o diretor de tecnologia Cotovio.
Chips nos DMCs permitem transmissão da coleta em tempo real
Todo o investimento na infraestrutura tecnológica do censo foi feito em 2019. Para 2022, ficaram apenas despesas de custeio, como os links de telecomunicações e os chips dos DMCs. Thomaselli destaca que a área de tecnologia já foi desafiada durante a pandemia para rapidamente suportar o trabalho remoto. Agora o desafio é administrar o trabalho de 200 mil pessoas.
“Este censo traz melhorias, como chips internos nos DMCs que permitem a transmissão assim que o recenseador encontra sinal. Antes era uma coleta às cegas. Hoje os supervisores conseguem ver a produtividade de cada recenseador e tomar uma decisão. E, se o recenseador tem dúvida, pode estabelecer uma conexão VoIP (Voz sobre IP, ou voz sobre a internet) e esclarecer a questão. Ou mesmo fazer entrevistas por telefone. O censo está muito mais interativo. Todos os movimentos do recenseador são registrados, assim como o tempo de preenchimento dos questionários. É monitoramento, administração e tomada de decisão em tempo real”, conclui Thomaselli.
Desafio técnico e oportunidade única de participar do Censo
Para a gerente de administração de tecnologia da informação, Flavia Marinho de Lima, engenheira de telecomunicações, há diversos desafios técnicos no Censo 2022. Atualmente a tecnologia é segmentada em várias camadas: infraestrutura, armazenamento, banco de dados, monitoramento, segurança e aplicação. A área de administração gerenciada por Flávia, cuida da camada de aplicação, que se integra a todas as anteriores e responde pelos serviços de tecnologia como as bases de dados dos logins (AD), serviços Web, servidores de domínio (DNS), servidores de aplicação e avaliação e configuração de equipamentos.
No Censo 2022, a área será responsável por toda a infraestrutura do Sistema de Administração de Pessoal Censitário (SAPC) e do Sistema de Indicadores Gerenciais da Coleta (SIGC), que atua como uma ferramenta de apoio e controle gerencial e estará à disposição dos coordenadores.
Já os DMCs contarão com vários insumos como mapas e a novidade neste censo é que esses recursos estarão na nuvem pública e na nuvem privada do IBGE, no data center. Primeiro, o aplicativo usado pelo recenseador tenta acessar a nuvem pública. Se não consegue, tenta os data centers do IBGE. Flávia explica que, no Censo Agro, esse serviço de colocar os insumos nos DMCs acabou congestionamento na rede do IBGE, por isso agora estão na nuvem pública também.
“Participar do Censo 2022 é um desafio imenso, devido à responsabilidade. E, como profissional, é uma oportunidade única. O Censo Agro já foi uma experiência enriquecedora. O Censo Demográfico 2022 será realizado em um momento muito curto, em que não pode haver erro porque os dias parados têm um custo enorme”, conclui Flávia.