DiversiDados: o curso de ciência de dados do Nubank

Aqui no Nubank a tecnologia é parte fundamental do nosso trabalho. Ela é um dos pilares que apoiam a gente na nossa missão de devolver às pessoas o controle sobre a sua vida financeira.

Ao longo dos anos, já apoiamos diversas iniciativas para divulgação de conhecimentos e ampliação do debate nesse setor. Agora, em setembro de 2020, ficamos felizes de colocar no ar mais um desses projetos: o Diversidados, um curso online e gratuito de ciências de dados.

O curso é aberto a pessoas de grupos sub-representados dentro desse segmento, seja por gênero, etnia, orientação sexual ou outro ponto.

A partir de outubro, serão sete semanas de aulas online, no período da noite, para turmas de níveis Iniciante (quem não tem conhecimento de ciência de dados, mas sabe lógica de programação) e Intermediário.

O objetivo é oferecer a mais pessoas a oportunidade de aprender e se aperfeiçoar em um setor promissor e que oferece muitas possibilidade de carreira.

Quando: o curso de 8 semanas começa no dia 5 de outubro, e as inscrições acabam dia 28 de setembro de 2020.

Abaixo veja mais detalhes sobre o programa, as turmas e como se inscrever.

O que é o Diversidados?

É um curso do Nubank em parceria com a {reprograma}, AfroPython e EducaTRANSforma. Cientistas de dados do Nubank compartilharão o conhecimento e experiência na área com pessoas que se identificam como grupo sub-representado na área.

Sim, o curso é 100% gratuito e focado em pessoas sub-representados na área de ciência de dados.

O curso começa em outubro de 2020 e é composto por 7 semanas de imersão em tópicos de ciência de dados.

Serão duas turmas de 30 pessoas em dois níveis: Iniciante e Intermediário. Adicionalmente incluímos uma semana inicial (opcional) de introdução à programação em Python.

Para quem é este curso?

Pessoas interessadas em aprender e trabalhar na área de Data Science.
Que façam parte de algum grupo sub-representado, seja, de gênero, etnia, orientação sexual ou outro.
Com conhecimento básico de programação - em qualquer linguagem!
Com disponibilidade para participar durante as 7 semanas de curso, sendo as aulas terças e quintas-feiras das 7pm às 9pm.

Veja abaixo em qual categoria, Iniciante ou Avançado, você se encaixa.

Quando: o curso de 8 semanas começa no dia 05/10, e as inscrições estarão abertas desde o dia 22/09 até 28/09.

Inscreva-se no curso

Iniciante

Track para quem nunca teve contato com o mundo de ciência de dados mas tem conhecimento de lógica de programação.

Passaremos pelos princípios básicos dos tipos de problemas e como identificá-los.
Entenderemos a diferença entre classificação e regressão, estudando métodos lineares e o modelo de árvores de decisão.
Estudaremos também como avaliar os modelos criados.

Semana 1: Introdução a Aprendizado de Máquina

Fundamentos básicos de aprendizado de máquina, diferenças em problemas supervisionados e não supervisionados e identificação de quando devemos recorrer a técnicas de aprendizado de máquina.

Semana 2: Pre-processamento dos dados

Manipulação e exploração de dados a serem utilizados, tratamento de dados faltantes, possíveis transformações em variáveis categóricas e numéricas e suas aplicações.

Semana 3: Métodos lineares para problemas de regressão

Definição de problemas de regressão. O que é regressão linear e como funciona, principais estratégias e quais métricas utilizar para avaliar modelos de regressão.

Semana 4: Métodos lineares para problemas de classificação

Definição de problemas de classificação. Explicação de regressão logística, overview de métricas de modelos de classificação e definição de ponto de corte.

Semana 5: Introdução a métodos não-lineares: árvores de decisão

Motivação a métodos não-lineares e como árvores de decisão são construídas, diferença entre utilização para classificação e para regressão.

Semana 6: Validação de modelos

O que é overfitting e underfitting de modelos, como separar os dados no processo de construção de modelos e análise de estabilidade.

Semana 7: Estruturação de problemas de aprendizado de máquina

Aulas práticas com overview de resoluções de problemas com data science. Definição de variável resposta, escopo, metodologia, métricas e validações em um mini projeto.

Intermediário

Track para quem já tem conhecimentos básicos de ciência de dados: entende a diferença entre classificação e regressão, sabe quando aplicar cada uma das abordagens e conhece bem os métodos básicos de aprendizado de máquina. Além disso, é capaz de avaliar modelos e estruturar um problema no contexto de ciência de dados.

Nas 7 semanas de curso, iremos:

estudar a fundo dois métodos amplamente utilizados e suas premissas.
Vamos entender as implicações de selecionar features, como ajustar hiperparâmetros e como utilizar em negócio os resultados de um modelo treinado.
Por fim, passaremos pela implantação de modelos, entendendo as diferentes abordagens e decisões necessárias.

Semana 1: Recapitulando conceitos & Random forest

Revisão dos conceitos básicos que serão necessários para as aulas. Introdução à combinação de modelos. Entendendo conceito de bagging, como random forests são criadas, quais são os principais parâmetros e seus efeitos.

Semana 2: Gradient Boosting

Métodos de boosting e modelos de previsão fracos. Teoria e funcionamento do gradient boosting, quais são os principais parâmetros e seus efeitos.

Semana 3: Seleção de features

Porquê e quando realizar seleção de features. Métodos mais utilizados e implicações práticas.

Semana 4: Ajuste de Hiperparâmetros

Importância e impactos na seleção de hiperparâmetros. Métodos de busca randômicos e por grade: vantagens, desvantagens e quando usar.

Semana 5: Aplicação: Criação de políticas

Como usar modelos em produção criando políticas. Uso do resultado de modelos no negócio, combinações de regras e scores, tomadas de decisões em cima de saídas de modelos.

Semana 6 e 7: Modelos em produção e monitoramento

Implantações de modelos. Comparação de abordagens batch vs online, decisões em testes A/B, tamanhos de rollout, monitoramento de decisões e de features.

Em qual track me encaixo?

Acreditamos que você tem mais conhecimento sobre em qual track você se encaixaria melhor para conseguir aproveitar o curso como um todo. Se você ainda tiver algumas dúvidas, podemos te ajudar com esta guia: você consegue responder às perguntas abaixo com um nível de certeza no que você se sente confortável?

Se sim, te recomendamos optar pelo nível intermediário, se não, o nível Iniciante pode ser uma melhor opção neste momento:

Qual é a diferença entre uma Regressão Linear e uma Regressão Logística?
Quais métricas se encaixam num problema de classificação e quais num de regressão?
Imagine que uma empresa de telecomunicações entra em contato com você comentando que gostaria de saber a quais clientes deveria de ofertar um serviço adicional de internet. Você sabe que eles possuem uma base com um teste feito no passado para uma base aleatória de quais clientes receberam essa proposta e o resultado obtido do mesmo. Como você abordaria esse problema?

Repostas:

Qual é a diferença entre uma Regressão Linear e uma Regressão Logística?
Ambas metodologias lidam com o problema de uma forma linear. A diferença entre eles radica no tipo de problema que eles podem ser aplicados. Especificamente Regressão logística se encaixa em problemas de classificação e regressão linear em problemas de regressão (onde o target ou variável resposta é contínua)
Quais métricas se encaixam num problema de classificação e quais num de regressão?
Algumas métricas comuns para problemas de classificação são: auc (área baixo a curva ROC), log loss, precision e recall. Por outro lado, para um problema de regressão algumas métricas conhecidas seriam MSE (erro quadrático médio), MAE (mean average error)
Imagine que uma empresa de telecomunicações entra em contato com você comentando que gostaria de saber a quais clientes deveria de ofertar um serviço adicional de internet. Você sabe que eles possuem uma base com um teste feito no passado para uma base aleatória de quais clientes receberam essa proposta e o resultado obtido do mesmo. Como você abordaria esse problema?
Como temos uma base de um teste aleatório feito pela empresa no passado, e sabemos quem aderiu ou não ao produto ofertado, podemos resolver esse problema com um modelo de classificação onde o target seria binário, 1 se a pessoa contratou o novo serviço e 0 caso contrário. Desta forma poderíamos usar um modelo de regressão logística ou árvore de decisão para obter a probabilidade da pessoa contratar o novo serviço. E aí com essa probabilidade tomar a decisão de a quais clientes deveríamos enviar a oferta nova!