Dados da semana

Link:

https://opendatasus.saude.gov.br/dataset/bps

Leia o quadro abaixo para ideias.



Dados dos últimos desafios

Links para o desafio Link Original Possíveis questões que voce pode abordar
Desafio 1 https://dataunodc.un.org/dp-drug-prices-Europe-USA vale a pena legalizar? Quem mais ganha? Diferença entre paises desenvolvidos e sub desenvolvidos..
Desafio 2 https://informationisbeautiful.net/visualizations/what-is-the-most-successful-hollywood-movie-of-all-time/ Qual filme tem maior retorno? Vc pode focar em alguns filmes indies, animacaoPode fazer uma historia so de filme de herois ou esporte.Vai da sua imaginacao :)
Desafio 3 https://www.kaggle.com/datasets/ahmedterry/cristiano-ronald-vs-lionel-messi-weekly-updated Algumas coisas interessantes que voce pode fazer1. Quem deu mais assistencias para cada um?2. Quem foi o time que mais sofreu gols de cada um?3. Quem é mais decisivo? (gols em copas, perto de acabar o jogo..)4. Quem faz mais gols em casa e fora?5. Você pode criar uma feature que junta tudo isso e calcula o rating de cada um para decidir quem é o GOAT :)6. Quem melhora mais durante a temporada? etcou crie a sua propria historia ! Vc decide ... quem é o GOAT?
Desafio 4 https://www.kaggle.com/datasets/shivamb/netflix-shows
https://datasets.imdbws.comhttps://www.imdb.com/interfaces/ O que vc pode fazer aqui:Focar em alguma serie ou genero em especialDescobrir quando saem os shows?Vc pode pegar outro dataset do IMDB por exemplo e fazer os ratings (tem q dar o join de alguma maneira..)Series com mais temporadase cria um sistema de recomendacao -> se eu escolho um filme , quais outros filmes eu iria ter como sugestao)
Desafio 5 https://fbref.com/en/expected-goals-model-explained/
https://www.modernfitba.com/glossaryhttps://github.com/CJ-Mayes/SportsVizSunday/tree/main/Data/Soccer/Premier League %26 WSL
https://www.sportsvizsunday.com/blog Os dados estão no terceiro link, os dois primeiros dao mais informacoes [data dictionary] e o quarto link mostra alguns dataviz ja criados na mesma pegada. Pra voce pegar inspiracaoAcho que esse desafio tem bastante potencial - voce pode investigar um jogadorVoce pode montar o melhor timeCriatividade é o limite!
Desafio 6 https://spartacus.gayguide.travel/gaytravelindex_2023.pdf
https://spartacus.gayguide.travel/blog/spartacus-gay-travel-index/ Data Dictionary and some explanations!
Desafio 7 https://github.com/MNC-Aubin/Jobs-scrapping-and-Data-analysis Quais as habilidades mais importantes para analistas de dados?
Desafio 8 https://www.kaggle.com/datasets/salvatorerastelli/spotify-and-youtube?resource=download Musicas e streaming! Da pra fazer varias analises legais - O data dictionary tá no link
Desafio 9 https://github.com/CJ-Mayes/SportsVizSunday/tree/main/Data/F1 Quais pilotos conseguiram reverter um mal comeco?Quem conseguiu mais pontos?Tanta coisa que voce pode fazer :)!
Desafio 10 https://www.kaggle.com/datasets/jsphyg/star-wars Hojé é o dia do Star Wars! Então tema especial do desafio numero 10!Eu confesso que não sou muito fan...O que você vai nos contar?
Desafio 11 https://fbref.com/en/squads/abdce579/Palmeiras-Stats#all_stats_standard Conte a historia que vc quiser sobre futebol!
Desafio 12 https://www.kaggle.com/datasets/jackdaoud/esports-earnings-for-players-teams-by-game?resource=download Voce sabia que o Brasil é uma powerhouse no e-sports? Poisé...ta sabendo agoraQue historia voce vai nos contar?
Desafio 13 https://rsf.org/en/index?year=2023https://www.theguardian.com/media/2023/may/03/media-freedom-in-dire-state-in-record-number-of-countries-report-finds?CMP=Share_iOSApp_Other A liberdade de imprensa está sendo bem discutida esses dias..Nada mais justo então de ter um desafio dataglow up sobre isso! Que historia você vai nos contar?
Desafio 14 https://towardsdatascience.com/analyzing-k-pop-using-machine-learning-part-1-data-collection-cleaning-4b407baf7bce BLACKPINK IN YOUR AREA :)
Desafio 15 https://www.kaggle.com/datasets/ricardotorresheredia/nba-stats-from-the-last-71-years NBA STATS :)!
Desafio 16 https://www.kaggle.com/datasets/carrie1/ecommerce-data Recomendo a leitura desse notebook, o cara é fera: https://www.kaggle.com/code/fabiendaniel/customer-segmentation
Desafio 17 https://www.kaggle.com/datasets/teocalvo/pizzaquery?select=produto.csv Dados do Teo Calvo com o LinuxTips!
Desafio 18 https://www.kaggle.com/datasets/danlessa/brazil-interstate-bus-travels/code?select=venda_passagem_dicionario_dados.pdf About Dataset
Context
Those files were downloaded due to the need of several projects for modelling Brazilian transit around the country. The potential is large, as this dataset could be used to infer insights about tourism habits, epidemics modelling, cultural similarity at city level and among others.

Content There is an file for each month since 2019/jan, and they contain the following info:

Ticket identifier Bus trip identifier Ticket emission timestamp Trip start and end timestamps Ticket start and end location, at municipality detail level Paid values Acknowledgements We acknowledge the Open Data initiative of the Brazilian government and ANTT for providing it. | | Desafio 19 | http://pdet.mte.gov.br/novo-caged | Vá ate a tabela 8! - vai ver que tem que fazer umas transformações! use sua criatividade | | Desafio 20 | https://dadosabertos.camara.leg.br/swagger/api.html#staticfile | Quem está gastando mais o nosso dinheiro como contribuinte…? Tem algo de suspeito? | | Desafio 21 | https://nsidc.org/data/seaice_index/data-and-image-archive | Voce pode contar uma historia melhor que a desse artigo? https://www.theguardian.com/environment/datablog/2023/jul/20/the-climate-crisis-in-four-charts-extreme-weather-heatwaves?CMP=Share_iOSApp_Other

aqui um video no qual tem um guia bem legal de como fazer no Tableau https://www.youtube.com/watch?v=dpyGRXwKcFg | | Desafio 22 | https://fbref.com/en/comps/14/history/Copa-Libertadores-Seasons | O meu verdão se classificou de pra avançar de fase na Liberta. Entao por isso os dados de hoje são da Copa Libertadores!

Os dados em si estão no site entao você terá que coletar os dados você mesmo.

Algumas coisas que você pode fazer:

Qual é o time ideal? Existe algum padrão que os campeões possuem? Você consegue criar um modelo para saber quem vai ganhar a Liberta esse ano? Aja como um Scout e procure os jogadores que ninguém conhece e crie um case de investimento.. Foque em um time, ou em um embate em particular..

Enfim.. seja criativo. Lembre-se, só mostrar dados muitos fazem. Vá além, crie uma historia. | | Desafio 23 | https://mavenanalytics.io/data-playground?page=5&pageSize=5 | Preço, Reviews…tem mta coisa pra fazer | | Desafio 24 | https://www.kaggle.com/datasets/bobbyscience/league-of-legends-soloq-ranked-games/data | Você consegue prever o que influencia uma partida de LOL?

Visão? Torres? First blood?

Escolha uma hipótese e investigue, eu não quero ver apenas números sendo jogados. Em uma empresa real isso não é importante. | | Desafio 25 | *Source: NYC OpenData

Data Dictionary:

Collision ID Unique record code generated by system Date Occurrence date of collision Time Occurrence time of collision Borough Borough where collision occurred Street Name Street on which the collision occurred Cross Street Nearest cross street to the collision Latitude Latitude coordinate for Global Coordinate System WGS 1984 decimal degrees (EPSG 4326) Longitude Longitude coordinate for Global Coordinate System WGS 1984 decimal degrees (EPSG 4326) Contributing Factor Factors contributing to the collision for designated vehicle Vehicle Type Type of vehicle Persons Injured Total number of persons injured (pedestrians + cyclists + motorists) Persons Killed Total number of persons killed (pedestrians + cyclists + motorists) Pedestrians Injured Number of pedestrians injured Pedestrians Killed Number of pedestrians killed Cyclists Injured Number of cyclists injured Cyclists Killed Number of cyclists killed Motorists Injured Number of vehicle occupants injured Motorists Killed Number of vehicle occupants killed* | Da pra fazer altas coisas aqui:

Mapas Sugerir rondas em pontos particulares Qual os horarios/lugares mais perigosos Existe algum padrão

Crie uma história - eu não quero só ver números!

(Podes usar dados externos se quiser também) | | Desafio 26 | https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce https://www.kaggle.com/datasets/olistbr/marketing-funnel-olist | Os 2 links se conectam - um tem informações das vendas, pagamentos etc, e o outro sobre o funil de marketing Dá pra fazer MUITA COISA com esses dados - simplesmente uma oportunidade incrivel de praticar e melhorar seu portfolio.

E o melhor são dados reais que foram anonimizados.

Deadline de 2 semanas!! | | Desafio 27 | https://www.kaggle.com/datasets/marlesson/myanimelist-dataset-animes-profiles-reviews?select=reviews.csv | Como eu to no Japão - o Data Glow Up é edição especial de colecionador.

Dados de reviews de anime! Bastante coisa para explorar (e vai trabalhar legal a parte de manipulação de dados). | | Desafio 28 | ‣ | Use os dados disponibilizados pelo Jeanzera (carros) e faça o tratamento, análise e apresentação dos dados.

Lembre que contexto é tudo. | | Desafio 29 | https://www.kaggle.com/datasets/datasnaek/youtube-new | Estatísticas do Youtube.

Lembre de criar um storytelling envolvente.

Não queremos ver só dados sendo jogados sem nenhum contexto.

Seja criativo. | | Desafio 30 | https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-cosmetics-shop | E-commerce de produtos de beleza.

Boa oportunidade para fazer de segmentação de clientes, comportamento do cliente, produtos…

Tem realmente muito potencial esse dataset e pode te ensinar várias coisas pro seu cinto de utilidades e entrevistas técnicas! | | Desafio 31 | https://www.kaggle.com/competitions/titanic | https://www.linkedin.com/posts/heitorsasaki_o-resultado-do-dataglow-30-e-o-dados-do-activity-7170446515763707905-XqsZ?utm_source=share&utm_medium=member_desktop | | Desafio 32 | https://opendatasus.saude.gov.br/dataset/notificacoes-de-sindrome-gripal-leve-2023 | Você vai ter que concatenar todos esses dados Podes fazer algum tipo de automacão Seja criativo! | | Desafio 33 | ‣ | esse é um bom desafio para praticar o seu storytelling - é sobre a terrivel guerra que esta acontecendo entre UK e RU.

Que historias vais contar?

Aqui uma inspiração pra ti, consegues fazer melhor?

https://informationisbeautiful.net/visualizations/ukraine-russian-war-infographics-data-visuals/#two-years | | Desafio 34 | Zoho | Zoho Analytics | | Desafio 35 | https://www.kaggle.com/datasets/teocalvo/teomewhy-loyalty-system/data | usando os dados do Teo me Why 🙂 | | Desafio 36 | https://www.kaggle.com/datasets/teocalvo/tse-analytics/ | Não esquece de dar um upvote la! | | Desafio 37 | https://components.one/datasets/bandcamp-sales | Um dataset interessante e que dá pra fazer uma análise exploratória legal.

podes pegar inspiração aqui também

https://components.one/posts/bandcamp-the-chaos-bazaar | | Desafio 38 | https://drive.google.com/drive/folders/1bxLcj_C8VXdDi8VQuDSLkpfgsSz3FWdP?usp=share_link | List de Tweets do Donald Trump, tu consegues ver um padrão? Fazer uma análise de sentimentos? Etc | | Desafio 39 | https://dadosabertos.mec.gov.br http://dados.prefeitura.sp.gov.br/it/dataset?groups=educacao https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/indicadores-educacionais | Alguns datasets abertos para você explorar - o do INEP é bem legal.

Use a sua criatividade e treine. Os dados do Inep vem em um formato excel, talvez uma boa oportunidade de treinar maneiras de transformar excel em um bd.. | | Desafio 40 | https://mengtingwan.github.io/data/goodreads.html | Esses dados são gigantes, dá pra fazer muita coisa kk..recomendacoes por exemplo.

Use a IA ao seu favor! Peca por ideias.

Crie uma historia, seja criativo. | | Desafio 41 | https://www.gov.br/anac/pt-br/acesso-a-informacao/dados-abertos/areas-de-atuacao/voos-e-operacoes-aereas/voo-regular-ativo-vra | Vou sugerir algumas análises interessantes que você pode fazer com estes dados do VRA da ANAC, focando em demonstrar diferentes habilidades analíticas:

  1. Análise de Pontualidade e Performance: • Criar um dashboard interativo mostrando os índices de pontualidade por companhia aérea • Análise de tendências sazonais de atrasos • Identificação de rotas problemáticas com maiores índices de atrasos • Correlação entre diferentes fatores (horário do dia, dia da semana, rota) e atrasos
  2. Análise de Malha Aérea: • Visualização da rede de rotas usando gráficos de rede • Identificação de hubs principais e suas características • Análise de densidade de rotas por região • Estudo de conectividade entre aeroportos
  3. Análise de Capacidade: • Estudo da distribuição de aeronaves por rota • Otimização de frota baseada em demanda histórica • Análise de utilização de aeronaves por empresa • Identificação de gargalos operacionais
  4. Previsão e Machine Learning: • Modelo preditivo de atrasos baseado em características históricas • Clustering de aeroportos por padrões de atraso • Análise de séries temporais para prever demanda • Sistema de recomendação de rotas alternativas

Algumas sugestões dadas pela IA. Alem disso os dados tao em CSV, vc pode criar uma pipeline, crie features e faca a visualização - assim terás um projeto end-to-end | | Desafio 42 | https://www.gov.br/mj/pt-br/assuntos/sua-seguranca/seguranca-publica/estatistica/dados-nacionais-1/base-de-dados-e-notas-metodologicas-dos-gestores-estaduais-sinesp-vde-2022-e-2023 | Algumas ideias dadas pela IA:

Os arquivos estão em excel - vai ser preciso criar uma pipelinezinha. Oportunidade pra mostrar habilidades de eng de analytics.

1. Análise Espacial e Temporal de Ocorrências Criminais Técnicas para Demonstrar: • Análise espacial (mapas de calor, clusters espaciais) • Séries temporais para padrões de criminalidade • Detecção de hotspots e padrões emergentes Abordagem Narrativa: "Mapeando a Segurança: Como a Análise de Dados Revela Padrões Ocultos da Criminalidade" Etapas de Implementação:

  1. Geocodificação de ocorrências
  2. Análise de densidade Kernel para identificar hotspots
  3. Decomposição temporal para identificar sazonalidade e tendências
  4. Correlacionar com dados demográficos e socioeconômicos
  5. Criar dashboards interativos com filtros por tipo de crime, período e região 2. Modelo Preditivo de Ocorrências Criminais Técnicas para Demonstrar: • Regressão espacial • Modelos de séries temporais (ARIMA, Prophet) • Aprendizado de máquina supervisionado • Validação cruzada temporal Abordagem Narrativa: "Antecipando para Prevenir: Como a Ciência de Dados Pode Auxiliar no Policiamento Preventivo" Etapas de Implementação:
  6. Preparação de dados históricos de ocorrências
  7. Engenharia de atributos considerando fatores espaciais e temporais
  8. Treinar e otimizar modelos preditivos
  9. Validar com dados recentes
  10. Criar visualizações de previsões para diferentes regiões e tipos de crime 3. Análise de Fatores de Risco e Correlações Técnicas para Demonstrar: • Análise de correlação • Testes estatísticos • Regressão múltipla • Visualização de dados multivariados Abordagem Narrativa: "Além das Estatísticas: Entendendo os Fatores que Influenciam a Segurança Pública" Etapas de Implementação:
  11. Integrar dados de ocorrências com indicadores socioeconômicos
  12. Analisar correlações entre diferentes variáveis
  13. Identificar fatores de risco significativos
  14. Desenvolver modelos explicativos
  15. Criar visualizações que mostrem relações causais 4. Análise de Eficácia de Políticas de Segurança Técnicas para Demonstrar: • Análise de intervenção em séries temporais • Modelos de diferenças em diferenças • Métodos causais (propensity score matching) • A/B testing para políticas públicas Abordagem Narrativa: "Medindo o Impacto: Avaliação Baseada em Dados de Políticas de Segurança Pública" Etapas de Implementação:
  16. Identificar políticas ou intervenções específicas
  17. Definir métricas de sucesso claras
  18. Construir grupos de controle apropriados
  19. Aplicar métodos estatísticos para isolar efeitos causais
  20. Visualizar resultados antes e depois das intervenções 5. Análise de Rede para Crimes Relacionados Técnicas para Demonstrar: • Modelagem de redes complexas • Detecção de comunidades • Análise de centralidade • Visualização de grafos Abordagem Narrativa: "Conexões Invisíveis: Descobrindo Padrões em Redes Criminais" Etapas de Implementação:
  21. Construir redes baseadas em relações entre ocorrências
  22. Identificar clusters de atividades relacionadas
  23. Analisar métricas de rede para identificar padrões
  24. Visualizar redes de forma interativa
  25. Desenvolver insights para estratégias de intervenção 6. Segmentação de Áreas por Perfil de Ocorrências Técnicas para Demonstrar: • Clustering espacial (K-means, DBSCAN) • Análise de componentes principais • Classificação supervisionada de regiões • Mapas autoorganizáveis (SOM) Abordagem Narrativa: "Perfis de Segurança: Compreendendo as Diferentes Realidades dentro da Cidade" Etapas de Implementação:
  26. Agregar dados por regiões geográficas
  27. Normalizar variáveis por população ou área
  28. Aplicar técnicas de clustering para identificar perfis similares
  29. Caracterizar cada cluster identificado
  30. Criar mapas temáticos interativos 7. Análise de Texto para Boletins de Ocorrência Técnicas para Demonstrar: • Processamento de linguagem natural (NLP) • Análise de sentimentos • Extração de tópicos (LDA) • Classificação de textos Abordagem Narrativa: "O Que os Relatos Revelam: Extraindo Insights de Narrativas de Ocorrências" Etapas de Implementação:
  31. Pré-processamento de texto de boletins de ocorrência
  32. Extração de entidades e palavras-chave
  33. Modelagem de tópicos para identificar padrões
  34. Classificação automática de ocorrências
  35. Visualização de insights textuais Estrutura de Apresentação e Portfólio Para demonstrar essas análises de forma eficaz em um contexto de busca de emprego:
  36. Dashboard Interativo: ◦ Criar um dashboard Tableau/Power BI/personalizado com filtros geográficos e temporais ◦ Incluir métricas de criminalidade e indicadores de performance ◦ Permitir diferentes níveis de agregação (bairro, distrito, cidade)
  37. Documentação Técnica: ◦ Notebooks Jupyter com código bem documentado ◦ Explicação clara das escolhas metodológicas ◦ Avaliação rigorosa de modelos
  38. Apresentação de Negócios: ◦ Resumo executivo focado em insights acionáveis ◦ Recomendações específicas para políticas públicas ◦ Visualizações claras e impactantes
  39. Explicação do Processo: ◦ Documentar desafios na limpeza e integração de dados ◦ Mostrar como lidar com dados sensíveis e questões éticas ◦ Explicar limitações e possíveis vieses nos dados | | Desafio 43 | https://dadosabertos.camara.leg.br/swagger/api.html?tab=staticfile#staticfile | Já usamos esse link para um dataset, no entanto paramos apenas nas despesas de cada deputado.

Eu quero que você vá alem, agora há dados das proposições, bancadas, eventos e quem esteve presente, votações (muito bom), licitações e contratos.

É um API então você pode ate criar uma aplicação que fica atualizando rotineiramente, e talvez criar um blog ou site, para compartilhar (baita ideia de projeto..).

Da pra fazer o download manualmente também. | | Desafio 44 | https://fbref.com/en/ e https://www.kaggle.com/datasets/felipesembay/sofascore-and-transfermarkt-football-data/ | Um storytelling que eu sugiro que você faça, mas pode is ir além.

Faça o scrapping dos elencos do Palmeiras e Flamengo e defina usando dados e a análise das estatísticas quem REALMENTE tem o melhor elenco.

Essa é uma discussão que está na mídia agora e tem grandes chances de viralizar.

Você pode dar pesos diferentes para jogos decisivos como oitavas, quartas, semi e finais.

Podes dar pesos para títulos conseguidos. Jogos em diferentes ligas.

O céu realmente é o limite.

Como existem muitas tabelas dentro do febref, tu vais ter que fazer o scrapping para encontrar os melhores stats. Vai dar um trabalho grande.

Mas isso pode ser reutilizado no futuro.

Além disso, tu podes criar uma ferramenta pra ajudar quem quer fazer bets por exemplo..

Essa é só uma idéia, mas vai da sua criatividade. | | Desafio 45 | https://opendatasus.saude.gov.br/dataset/bps | Análises Exploratórias Básicas (sugestões da IA) Transparência e Eficiência de Compras Públicas • Comparação de preços do mesmo medicamento entre diferentes estados/municípios • Identificação de outliers nos preços (possíveis superfaturamentos ou subfaturamentos) • Análise da variação de preços por modalidade de compra (pregão vs licitação vs compra direta) • Ranking de fornecedores mais competitivos por categoria de produto Análises Geográficas • Mapa de calor dos preços médios por estado/região • Identificação de "desertos" de fornecedores (regiões com poucos fornecedores) • Análise de disparidades regionais nos preços de medicamentos essenciais • Correlação entre localização geográfica e variação de preços Análises Intermediárias Inteligência de Mercado • Análise de concentração de mercado (quais fabricantes dominam quais segmentos) • Identificação de produtos com maior variabilidade de preços • Análise temporal de evolução de preços (usando as datas de compra) • Comparação entre medicamentos genéricos vs marca Otimização de Compras • Sistema de recomendação de fornecedores mais vantajosos por região • Análise de sazonalidade nas compras (se há padrões temporais) • Identificação de oportunidades de compras conjuntas entre instituições Análises Avançadas Machine Learning & Predição • Modelo de predição de preços baseado em características do produto e contexto da compra • Algoritmo de detecção de anomalias para identificar preços suspeitos • Clustering de instituições por padrões de compra • Análise de séries temporais para previsão de tendências de preços Dashboards Interativos • Painel executivo para gestores públicos acompanharem eficiência das compras • Comparador de preços em tempo real para auxiliar compradores • Dashboard de monitoramento de mercado farmacêutico brasileiro Projetos Diferenciados para Portfolio 1. "Observatório de Preços SUS" • Combine dados do BPS com dados do IBGE (população, PIB municipal) • Analise se há correlação entre desenvolvimento socioeconômico e eficiência nas compras • Crie indicadores de performance de compras por região 2. "Radar de Oportunidades" • Desenvolva um sistema que identifique automaticamente oportunidades de economia • Use análise de redes para mapear relacionamentos entre fabricantes/fornecedores • Implemente alertas para variações anômalas de preços 3. "Farmácia Popular Analytics" • Compare preços do BPS com preços de varejo (se conseguir dados complementares) • Analise o impacto econômico do programa em diferentes regiões • Desenvolva métricas de acessibilidade a medicamentos Aspectos Técnicos Interessantes Engenharia de Dados • Pipeline automatizado de ingestão e limpeza dos dados mensais • Implementação de data quality checks (detecção de CNPJs inválidos, preços negativos, etc.) • Sistema de versionamento dos dados históricos Visualização • Use ferramentas como Plotly/Dash, Streamlit ou Power BI • Implemente mapas interativos com Folium • Crie visualizações de redes para relacionamentos entre entidades Deploy e Produção • Containerize a aplicação com Docker • Deploy em cloud (AWS, GCP, Azure) • Implemente CI/CD para atualizações automáticas Dica Extra Considere combinar esses dados com outras fontes públicas como: • Dados do CNES (Cadastro Nacional de Estabelecimentos de Saúde) • Informações epidemiológicas do DATASUS • Dados socioeconômicos do IBGE |