O que é data leakage e como essa falha pode contaminar as decisões

SCROLL DOWN

No mundo da ciência de dados, um vazamento é uma falha que pode fazer com que as métricas de avaliação do modelo não sejam confiáveis (e algo de errado não está certo nisso)
Qual é a primeira coisa que surge no seu pensamento ao ler a expressão “data leakage”?

Provavelmente, alguma lista ou notícia a respeito de informações vazadas dos clientes de uma loja virtual, ataques hackers ou até a lembrança de algum escândalo envolvendo uma famigerada rede social.

No entanto, o conceito de data leakage que vamos abordar hoje não tem relação com o vazamento de dados no contexto de segurança e, sim, na área de machine learning (aprendizado de máquina).

Data leakage: deu ruim no machine learning

Data Leakage é uma falha que acontece durante os testes de um modelo de machine learning, no qual informações são compartilhadas entre um conjunto de dados usado no treinamento e outro conjunto de dados que é usado para validar essa modelagem, também chamado de dataset de testes.

Ok, treino e teste parecem a mesma coisa, certo? Errado. Em data science, os times usam um dataset de treinamento para desenvolver o modelo de inteligência artificial — treinar efetivamente. Ou seja, esse é o dataset que vai ser usado para realizar previsões, no fim do dia, entregar inteligência.

Já o dataset de testes é uma parte do banco de dados que é separada e usada para avaliar a performance do modelo. O quanto aquele modelo consegue efetivamente prever situações reais. Em geral, esses dois bancos de dados são separados de uma base original.

E o motivo para que eles sejam separados é para que você possa garantir que o set de teste seja capaz de simular uma situação do mundo real, para uma avaliação mais realista da performance do modelo desenvolvido.

E é aqui que entra o “vazamento” no contexto de machine learning. Um data leakage acontece quando aquelas informações presentes no conjunto de dados de treinamento são compartilhadas com os dados de teste.

Data leakage é parecido com colar numa prova

E o que isso significa? Que o seu modelo vai ser “contaminado” por informações que não deveriam estar ali — o que pode fazer com que a performance do seu conjunto de testes funcione bem, mas não vai se refletir na realidade.

Traduzindo: imagine que você está estudando para uma prova importante. Seus miolos estão ali, fritando para desenvolver um algoritmo para responder às questões de cada matéria. Só que, por um acaso, você tem acesso ao gabarito com os resultados do teste. Esse acesso certamente vai influenciar no seu estudo.

Na hora da prova, você pode até ter bons resultados. Mas, isso não significa que o seu algoritmo mental (ou seu conhecimento do assunto) está preparado para executar os mesmos exercícios num segundo teste.

E esse é o principal problema desse tipo de falha: o leakage leva a um alto desempenho no conjunto de validação, mas o modelo vai ser bastante impreciso quando utilizado no mundo real.

Pensando em uma expressão do cancioneiro popular, um data leakage é um verdadeiro “amigo da onça” ou um “presente de grego” para os cientistas de dados.

E quando acontece o tal data leakage?

Data leakage

Esse tipo de erro acontece em dois momentos:quando há uma contaminação do dataset de testes com dados de treinamento antes da separação ou quando seus modelos preditores incluem dados que não estarão disponíveis no momento em que você fizer previsões, o chamado vazamento de destino.

No primeiro caso, imagine que na hora de fazer o tratamento dos dados daquele dataset, o cientista de dados se esqueceu de separar treinamento e testes e carregou alguma informação que vai afetar as análises. Aqui, temos um leak que pode tornar um modelo mais otimista, por exemplo.

No segundo caso, o que acontece é que, o cientista pode introduzir dados do futuro na amostra. Ou, nas palavras de Alexis Cook, do Kaggle:

“É importante pensar no vazamento de destino em termos de tempo ou ordem cronológica em que os dados se tornam disponíveis, não apenas se um recurso ajuda a fazer boas previsões”.

Cook tem um exemplo clássico que ajuda a entender esse problema temporal: um banco de dados para previsão de pessoas que correm o risco de pegar pneumonia. Imagine que esse dataset tem informações e leve em conta o uso de antibióticos, por exemplo.

Acontece que as pessoas costumam tomar o remédio depois de terem pneumonia. Um modelo treinado com esses dados pode correr o risco de relacionar que todas as pessoas que não tomam antibióticos não têm pneumonia.

Para resumir essa história, um data leak pode influenciar modelos de previsão e torná-los menos confiáveis, mesmo depois de passarem pelos processos de validação. Com o poder dos dados cada vez maior na tomada de decisões, esse é um “presente de grego” que nenhum cientista de dados quer ganhar.

Para saber mais sobre os conceitos que envolvem data analytics e usar todo o poder dos dados para potencializar seus resultados, acompanhe as publicações aqui no blog e nas redes sociais da Neoway.

E, se você quer mergulhar ainda mais fundo no que é data leakage, suas consequências e quais técnicas usar para detectar e evitar o problema, fique ligado no Neoway Tech Lab, o blog do time de tecnologia da Neoway.

Data leakage

Por 

Neoway

A Neoway é a maior empresa da América Latina de Big Data Analytics e Inteligência Artificial para negócios. Fundada em 2002, em Florianópolis, lançou a sua plataforma SaaS em 2012, e, hoje, está presente em todo o Brasil.

Compartilhe este conteúdo:

Assinar Newsletter

Para obter mais informações sobre como tratamos os seus dados pessoais, consulte a nossa Política de Tratamento de Dados e de Privacidade do Site Neoway.

Busque o assunto desejado



Inscrições encerram em:

00 00 00 00

Papo Financeiro

Acompanhe os especialistas do mercado financeiro discutindo sobre inovações e tendências do mercado.

Participações confirmadas de:

Paula Godke

Paula Godke

Senior Head de Riscos de Crédito, no Santander
Camila Caresi

Camila Caresi

Diretora de GRC, na Pay4Fun
Gustavo Silva

Gustavo Silva

C6 Bank
Alessandra Ribeiro

Alessandra Ribeiro

Tendências Consultoria
Inscreva-se agora!

CUSTOMIZE SUA EXPERIÊNCIA

Sobre o que você quer saber mais ?

Digite aqui o que você procura

Use nossa ferramenta de pesquisa para adaptar a experiência do site às suas necessidades.

Digite aqui o que você procura