Existe Influência do Gênero no Salário?
Introdução
O site Data Hackers é um baita comunidade dos profissionais e estudantes que colaboram para a comunidade de ciencia de dados.
Desde 2018 quando foi criado o grupo do slack vem contribuindo com conteúdo para toda a comunidade.
Hoje em dias estão disponíveis em mais veículos comunitivos como: Youtube, Medium e Spotify.
Um das propostas para incentivar a comunidade é a realização da pesquisa State of Data: “Um mapeamento completo do cenário atual da área de dados do Brasil”
São informação sobre Demografia, Carreira, desafios de gestores, conhecimentos na área de dados e de cada profissão.
A pesquisa foi realizada em 2019, 2021 e 2022 (8 de Fevereiro Sai).
Ao mesmo tempo que permite a comunidade em conhecer as suas própria característica, cria desafios de dados
para fomentar as perspectivas e desenvolvimento dos profissionais e empresas.
Nesse estudo vou utilizar a pesquisa de de 2021 !
Referência
Como referência do estudo de interesse, utilizarei um dos notebooks vencedores, que ficaram no top 3 análises, disponível no Notebook Kaggle. A intenção é realizar outra abordagem para responder a seguinte pergunta: O gênero afeta o salário? As mais importantes alterações são:
3 modelos para cada profissão: cientista, analista e engenheiro
A técnica do modelo é logístico ordinal
A variável de gênero será a última no modelo
Dados
Da mesma forma para todas as análises serão feitos filtros e adequações a variáveis. Destaco as Seguintes:
p1_b_genero != "Outro"
& p2_a_qual_sua_situacao_atual_de_trabalho_nd != "Prefiro não informar"
Além de filtrar o banco é necessário identicar cada variáveis corresponente a profissão. O Banco de Dados indica cada conjunto de variável. Serão considerados no modelo as rotinas e domínio de linguagem de cada profissão assim como variáveis em comum: experiencia, cargo, formação.
Ao realizar esse filtro temos:
p4_a_atuacao | df_nrow | df_col |
---|---|---|
Engenharia de Dados | 401 | 110 |
Ciência de Dados | 410 | 119 |
Análise de Dados | 847 | 116 |
Como são mais de 100 variáveis potenciais para colocar no modelo será realizado um filtro de variabilidade e significância via qui quadrado.
O filtro de variabilidade, a intenção é remover variáveis que são praticamentes únicas. Se uma variável não altera logo não contribui para o modelo. e a grande chance de ocorrer em variáveis dicotômicas (0 ou 1). Como ponto de corte, farei um filtro de representação entre 2.5 % e 97.5%.
A Variável Domínio de scala
tem essa proporção em engenharia de Dados. Será mantida no modelo.
##
## 0 1
## 85.03937 14.96063
A Variável Domínio de .Net
tem essa proporção em engenharia de Dados. Será descartada no modelo
##
## 0 1
## 97.506234 2.493766
O filtro Qui Quadrado, consiste no teste de hipótese de verificar associação entre a variável resposta com as explicativas. Ao aplicar o teste e remover as linhas com NA temos o seguinte desfecho:
p4_a_atuacao | df_nrow | df_col |
---|---|---|
Engenharia de Dados | 381 | 27 |
Ciência de Dados | 399 | 38 |
Análise de Dados | 818 | 39 |
Estatística Descritiva
Mosaico Engenharia de Dados
Mosaico Ciência de Dados
Mosaico Análise de Dados
Percebemos que as categorias mais altas de Salário são inexistes para o gênero Feminino.
Modelo
Utilizei o modelo Cumulative Link Models for Ordinal Regression
, pois os seguintes não encontravam:
Modelo Logístico tradicional são duas respostas
Modelo Multinomial são várias respostas mas sem ordemx
Modelo de Aprendizado de Máquina, não possui muitos registros para performar adequadamente
Para mais detalhes consulte a Vinheta CLM.
O modelo Aplicado será usado com a variável gênero sendo colocado como última
Resultados
Vamos Validar a Qualidade do Modelo pela Matrix de Confusão
Vamos Verificar A Performance do Modelo via Indicador Kappa e Acurácia
Vamos Explorar os resultados dos coeficientes para a variável Gênero.
Vamos Explorar os Principais coeficientes Que Explicam o Salário.
Matriz de Confusão
O resultado da Matrix de Confusão, mostra que há predomínio na diagonal principal. Ou seja as categorias preditas são correspondidos com a respectiva observado pela categoria
Performance
p4_a_atuacao | Accuracy | Kappa |
---|---|---|
Engenharia de Dados | 0.7034121 | 0.5566163 |
Ciência de Dados | 0.7243108 | 0.5854311 |
Análise de Dados | 0.6466993 | 0.4814256 |
O resultado da performance é satisfatório, acurácia de 70%. O indicador de Kappa [0,40 |- 0,59] entre confirma uma concordância moderada dos resultados.
Coeficiente Gênero
p4_a_atuacao | estimate | std.error | statistic | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
Engenharia de Dados | 1.061 | 0.343 | 0.174 | 0.862 | 0.540 | 2.079 |
Ciência de Dados | 1.275 | 0.305 | 0.796 | 0.426 | 0.701 | 2.321 |
Análise de Dados | 0.689 | 0.184 | -2.026 | 0.043 | 0.481 | 0.988 |
O resultado mostra que para engenharia de Ciência, o salário não tem relação com o gênero, pois o pvalue
está acima de 0.05.
A profissão de analista mostra uma leve inclinação a ser caracterizado pelo gênero, repare nos valores de conf.low
e conf.high
é o intervalo de confiança do estimate
quase chega no 1.
Coeficientes Mais relevantes
Confira os 5 coeficientes mais relevantes para determinar o salário de cada profissão, cargo, experiencia, trabalho no exterior e ferramentas.
term | estimate | p.value |
---|---|---|
Engenharia de Dados | ||
p2_nd_cargoSênior | 123.125 | 0.000 |
p2_a_qual_sua_situacao_atual_de_trabalho_ndexterior | 41.156 | 0.000 |
p2_nd_cargoPleno | 10.872 | 0.000 |
p2_i_quanto_tempo_de_experiencia_na_area_de_dados_voce_tem_ndDepois de 6 anos | 8.632 | 0.000 |
p4_d_j_scala1 | 2.875 | 0.006 |
Ciência de Dados | ||
p2_nd_cargoSênior | 45.122 | 0.000 |
p2_a_qual_sua_situacao_atual_de_trabalho_ndServidor Público | 15.273 | 0.000 |
p2_nd_cargoPleno | 8.415 | 0.000 |
p2_i_quanto_tempo_de_experiencia_na_area_de_dados_voce_tem_ndDepois de 6 anos | 5.285 | 0.003 |
p2_i_quanto_tempo_de_experiencia_na_area_de_dados_voce_tem_ndde 4 a 5 anos | 4.204 | 0.004 |
Analista de Dados | ||
p2_nd_cargoSênior | 33.269 | 0.000 |
p2_a_qual_sua_situacao_atual_de_trabalho_ndexterior | 15.626 | 0.000 |
p2_nd_cargoPleno | 5.204 | 0.000 |
p2_i_quanto_tempo_de_experiencia_na_area_de_dados_voce_tem_ndDepois de 6 anos | 4.668 | 0.000 |
p2_a_qual_sua_situacao_atual_de_trabalho_ndServidor Público | 3.826 | 0.004 |
Conclusões
Os principais atributos para explicar o salário em dados são cargo e experiência , local de trabalho e as ferramentas. A variável gênero não explica o salário, em engenharia e ciencia. Na profissão de analista, repare que no gráfico de Mosaico, o analista aumenta sutilmente proporcional o feminino no cargo júnior. Sendo assim, considerado estatisticamente significativo a 0.05, aplicando um ponto de corte mais rigoroso como 0.01, não há efeito. O modelo foi validado e apresentou performances razoáveis.