Dados da semana
https://opendatasus.saude.gov.br/dataset/bps
Leia o quadro abaixo para ideias.
Links para o desafio | Link Original | Possíveis questões que voce pode abordar |
---|---|---|
Desafio 1 | https://dataunodc.un.org/dp-drug-prices-Europe-USA | vale a pena legalizar? Quem mais ganha? Diferença entre paises desenvolvidos e sub desenvolvidos.. |
Desafio 2 | https://informationisbeautiful.net/visualizations/what-is-the-most-successful-hollywood-movie-of-all-time/ | Qual filme tem maior retorno? Vc pode focar em alguns filmes indies, animacaoPode fazer uma historia so de filme de herois ou esporte.Vai da sua imaginacao :) |
Desafio 3 | https://www.kaggle.com/datasets/ahmedterry/cristiano-ronald-vs-lionel-messi-weekly-updated | Algumas coisas interessantes que voce pode fazer1. Quem deu mais assistencias para cada um?2. Quem foi o time que mais sofreu gols de cada um?3. Quem é mais decisivo? (gols em copas, perto de acabar o jogo..)4. Quem faz mais gols em casa e fora?5. Você pode criar uma feature que junta tudo isso e calcula o rating de cada um para decidir quem é o GOAT :)6. Quem melhora mais durante a temporada? etcou crie a sua propria historia ! Vc decide ... quem é o GOAT? |
Desafio 4 | https://www.kaggle.com/datasets/shivamb/netflix-shows | |
https://datasets.imdbws.comhttps://www.imdb.com/interfaces/ | O que vc pode fazer aqui:Focar em alguma serie ou genero em especialDescobrir quando saem os shows?Vc pode pegar outro dataset do IMDB por exemplo e fazer os ratings (tem q dar o join de alguma maneira..)Series com mais temporadase cria um sistema de recomendacao -> se eu escolho um filme , quais outros filmes eu iria ter como sugestao) | |
Desafio 5 | https://fbref.com/en/expected-goals-model-explained/ | |
https://www.modernfitba.com/glossaryhttps://github.com/CJ-Mayes/SportsVizSunday/tree/main/Data/Soccer/Premier League %26 WSL | ||
https://www.sportsvizsunday.com/blog | Os dados estão no terceiro link, os dois primeiros dao mais informacoes [data dictionary] e o quarto link mostra alguns dataviz ja criados na mesma pegada. Pra voce pegar inspiracaoAcho que esse desafio tem bastante potencial - voce pode investigar um jogadorVoce pode montar o melhor timeCriatividade é o limite! | |
Desafio 6 | https://spartacus.gayguide.travel/gaytravelindex_2023.pdf | |
https://spartacus.gayguide.travel/blog/spartacus-gay-travel-index/ | Data Dictionary and some explanations! | |
Desafio 7 | https://github.com/MNC-Aubin/Jobs-scrapping-and-Data-analysis | Quais as habilidades mais importantes para analistas de dados? |
Desafio 8 | https://www.kaggle.com/datasets/salvatorerastelli/spotify-and-youtube?resource=download | Musicas e streaming! Da pra fazer varias analises legais - O data dictionary tá no link |
Desafio 9 | https://github.com/CJ-Mayes/SportsVizSunday/tree/main/Data/F1 | Quais pilotos conseguiram reverter um mal comeco?Quem conseguiu mais pontos?Tanta coisa que voce pode fazer :)! |
Desafio 10 | https://www.kaggle.com/datasets/jsphyg/star-wars | Hojé é o dia do Star Wars! Então tema especial do desafio numero 10!Eu confesso que não sou muito fan...O que você vai nos contar? |
Desafio 11 | https://fbref.com/en/squads/abdce579/Palmeiras-Stats#all_stats_standard | Conte a historia que vc quiser sobre futebol! |
Desafio 12 | https://www.kaggle.com/datasets/jackdaoud/esports-earnings-for-players-teams-by-game?resource=download | Voce sabia que o Brasil é uma powerhouse no e-sports? Poisé...ta sabendo agoraQue historia voce vai nos contar? |
Desafio 13 | https://rsf.org/en/index?year=2023https://www.theguardian.com/media/2023/may/03/media-freedom-in-dire-state-in-record-number-of-countries-report-finds?CMP=Share_iOSApp_Other | A liberdade de imprensa está sendo bem discutida esses dias..Nada mais justo então de ter um desafio dataglow up sobre isso! Que historia você vai nos contar? |
Desafio 14 | https://towardsdatascience.com/analyzing-k-pop-using-machine-learning-part-1-data-collection-cleaning-4b407baf7bce | BLACKPINK IN YOUR AREA :) |
Desafio 15 | https://www.kaggle.com/datasets/ricardotorresheredia/nba-stats-from-the-last-71-years | NBA STATS :)! |
Desafio 16 | https://www.kaggle.com/datasets/carrie1/ecommerce-data | Recomendo a leitura desse notebook, o cara é fera: https://www.kaggle.com/code/fabiendaniel/customer-segmentation |
Desafio 17 | https://www.kaggle.com/datasets/teocalvo/pizzaquery?select=produto.csv | Dados do Teo Calvo com o LinuxTips! |
Desafio 18 | https://www.kaggle.com/datasets/danlessa/brazil-interstate-bus-travels/code?select=venda_passagem_dicionario_dados.pdf | About Dataset |
Context | ||
Those files were downloaded due to the need of several projects for modelling Brazilian transit around the country. The potential is large, as this dataset could be used to infer insights about tourism habits, epidemics modelling, cultural similarity at city level and among others. |
Content There is an file for each month since 2019/jan, and they contain the following info:
Ticket identifier Bus trip identifier Ticket emission timestamp Trip start and end timestamps Ticket start and end location, at municipality detail level Paid values Acknowledgements We acknowledge the Open Data initiative of the Brazilian government and ANTT for providing it. | | Desafio 19 | http://pdet.mte.gov.br/novo-caged | Vá ate a tabela 8! - vai ver que tem que fazer umas transformações! use sua criatividade | | Desafio 20 | https://dadosabertos.camara.leg.br/swagger/api.html#staticfile | Quem está gastando mais o nosso dinheiro como contribuinte…? Tem algo de suspeito? | | Desafio 21 | https://nsidc.org/data/seaice_index/data-and-image-archive | Voce pode contar uma historia melhor que a desse artigo? https://www.theguardian.com/environment/datablog/2023/jul/20/the-climate-crisis-in-four-charts-extreme-weather-heatwaves?CMP=Share_iOSApp_Other
aqui um video no qual tem um guia bem legal de como fazer no Tableau https://www.youtube.com/watch?v=dpyGRXwKcFg | | Desafio 22 | https://fbref.com/en/comps/14/history/Copa-Libertadores-Seasons | O meu verdão se classificou de pra avançar de fase na Liberta. Entao por isso os dados de hoje são da Copa Libertadores!
Os dados em si estão no site entao você terá que coletar os dados você mesmo.
Algumas coisas que você pode fazer:
Qual é o time ideal? Existe algum padrão que os campeões possuem? Você consegue criar um modelo para saber quem vai ganhar a Liberta esse ano? Aja como um Scout e procure os jogadores que ninguém conhece e crie um case de investimento.. Foque em um time, ou em um embate em particular..
Enfim.. seja criativo. Lembre-se, só mostrar dados muitos fazem. Vá além, crie uma historia. | | Desafio 23 | https://mavenanalytics.io/data-playground?page=5&pageSize=5 | Preço, Reviews…tem mta coisa pra fazer | | Desafio 24 | https://www.kaggle.com/datasets/bobbyscience/league-of-legends-soloq-ranked-games/data | Você consegue prever o que influencia uma partida de LOL?
Visão? Torres? First blood?
Escolha uma hipótese e investigue, eu não quero ver apenas números sendo jogados. Em uma empresa real isso não é importante. | | Desafio 25 | *Source: NYC OpenData
Data Dictionary:
Collision ID Unique record code generated by system Date Occurrence date of collision Time Occurrence time of collision Borough Borough where collision occurred Street Name Street on which the collision occurred Cross Street Nearest cross street to the collision Latitude Latitude coordinate for Global Coordinate System WGS 1984 decimal degrees (EPSG 4326) Longitude Longitude coordinate for Global Coordinate System WGS 1984 decimal degrees (EPSG 4326) Contributing Factor Factors contributing to the collision for designated vehicle Vehicle Type Type of vehicle Persons Injured Total number of persons injured (pedestrians + cyclists + motorists) Persons Killed Total number of persons killed (pedestrians + cyclists + motorists) Pedestrians Injured Number of pedestrians injured Pedestrians Killed Number of pedestrians killed Cyclists Injured Number of cyclists injured Cyclists Killed Number of cyclists killed Motorists Injured Number of vehicle occupants injured Motorists Killed Number of vehicle occupants killed* | Da pra fazer altas coisas aqui:
Mapas Sugerir rondas em pontos particulares Qual os horarios/lugares mais perigosos Existe algum padrão
Crie uma história - eu não quero só ver números!
(Podes usar dados externos se quiser também) | | Desafio 26 | https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce https://www.kaggle.com/datasets/olistbr/marketing-funnel-olist | Os 2 links se conectam - um tem informações das vendas, pagamentos etc, e o outro sobre o funil de marketing Dá pra fazer MUITA COISA com esses dados - simplesmente uma oportunidade incrivel de praticar e melhorar seu portfolio.
E o melhor são dados reais que foram anonimizados.
Deadline de 2 semanas!! | | Desafio 27 | https://www.kaggle.com/datasets/marlesson/myanimelist-dataset-animes-profiles-reviews?select=reviews.csv | Como eu to no Japão - o Data Glow Up é edição especial de colecionador.
Dados de reviews de anime! Bastante coisa para explorar (e vai trabalhar legal a parte de manipulação de dados). | | Desafio 28 | ‣ | Use os dados disponibilizados pelo Jeanzera (carros) e faça o tratamento, análise e apresentação dos dados.
Lembre que contexto é tudo. | | Desafio 29 | https://www.kaggle.com/datasets/datasnaek/youtube-new | Estatísticas do Youtube.
Lembre de criar um storytelling envolvente.
Não queremos ver só dados sendo jogados sem nenhum contexto.
Seja criativo. | | Desafio 30 | https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-cosmetics-shop | E-commerce de produtos de beleza.
Boa oportunidade para fazer de segmentação de clientes, comportamento do cliente, produtos…
Tem realmente muito potencial esse dataset e pode te ensinar várias coisas pro seu cinto de utilidades e entrevistas técnicas! | | Desafio 31 | https://www.kaggle.com/competitions/titanic | https://www.linkedin.com/posts/heitorsasaki_o-resultado-do-dataglow-30-e-o-dados-do-activity-7170446515763707905-XqsZ?utm_source=share&utm_medium=member_desktop | | Desafio 32 | https://opendatasus.saude.gov.br/dataset/notificacoes-de-sindrome-gripal-leve-2023 | Você vai ter que concatenar todos esses dados Podes fazer algum tipo de automacão Seja criativo! | | Desafio 33 | ‣ | esse é um bom desafio para praticar o seu storytelling - é sobre a terrivel guerra que esta acontecendo entre UK e RU.
Que historias vais contar?
Aqui uma inspiração pra ti, consegues fazer melhor?
https://informationisbeautiful.net/visualizations/ukraine-russian-war-infographics-data-visuals/#two-years | | Desafio 34 | Zoho | Zoho Analytics | | Desafio 35 | https://www.kaggle.com/datasets/teocalvo/teomewhy-loyalty-system/data | usando os dados do Teo me Why 🙂 | | Desafio 36 | https://www.kaggle.com/datasets/teocalvo/tse-analytics/ | Não esquece de dar um upvote la! | | Desafio 37 | https://components.one/datasets/bandcamp-sales | Um dataset interessante e que dá pra fazer uma análise exploratória legal.
podes pegar inspiração aqui também
https://components.one/posts/bandcamp-the-chaos-bazaar | | Desafio 38 | https://drive.google.com/drive/folders/1bxLcj_C8VXdDi8VQuDSLkpfgsSz3FWdP?usp=share_link | List de Tweets do Donald Trump, tu consegues ver um padrão? Fazer uma análise de sentimentos? Etc | | Desafio 39 | https://dadosabertos.mec.gov.br http://dados.prefeitura.sp.gov.br/it/dataset?groups=educacao https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/indicadores-educacionais | Alguns datasets abertos para você explorar - o do INEP é bem legal.
Use a sua criatividade e treine. Os dados do Inep vem em um formato excel, talvez uma boa oportunidade de treinar maneiras de transformar excel em um bd.. | | Desafio 40 | https://mengtingwan.github.io/data/goodreads.html | Esses dados são gigantes, dá pra fazer muita coisa kk..recomendacoes por exemplo.
Use a IA ao seu favor! Peca por ideias.
Crie uma historia, seja criativo. | | Desafio 41 | https://www.gov.br/anac/pt-br/acesso-a-informacao/dados-abertos/areas-de-atuacao/voos-e-operacoes-aereas/voo-regular-ativo-vra | Vou sugerir algumas análises interessantes que você pode fazer com estes dados do VRA da ANAC, focando em demonstrar diferentes habilidades analíticas:
Algumas sugestões dadas pela IA. Alem disso os dados tao em CSV, vc pode criar uma pipeline, crie features e faca a visualização - assim terás um projeto end-to-end | | Desafio 42 | https://www.gov.br/mj/pt-br/assuntos/sua-seguranca/seguranca-publica/estatistica/dados-nacionais-1/base-de-dados-e-notas-metodologicas-dos-gestores-estaduais-sinesp-vde-2022-e-2023 | Algumas ideias dadas pela IA:
Os arquivos estão em excel - vai ser preciso criar uma pipelinezinha. Oportunidade pra mostrar habilidades de eng de analytics.
1. Análise Espacial e Temporal de Ocorrências Criminais Técnicas para Demonstrar: • Análise espacial (mapas de calor, clusters espaciais) • Séries temporais para padrões de criminalidade • Detecção de hotspots e padrões emergentes Abordagem Narrativa: "Mapeando a Segurança: Como a Análise de Dados Revela Padrões Ocultos da Criminalidade" Etapas de Implementação:
Eu quero que você vá alem, agora há dados das proposições, bancadas, eventos e quem esteve presente, votações (muito bom), licitações e contratos.
É um API então você pode ate criar uma aplicação que fica atualizando rotineiramente, e talvez criar um blog ou site, para compartilhar (baita ideia de projeto..).
Da pra fazer o download manualmente também. | | Desafio 44 | https://fbref.com/en/ e https://www.kaggle.com/datasets/felipesembay/sofascore-and-transfermarkt-football-data/ | Um storytelling que eu sugiro que você faça, mas pode is ir além.
Faça o scrapping dos elencos do Palmeiras e Flamengo e defina usando dados e a análise das estatísticas quem REALMENTE tem o melhor elenco.
Essa é uma discussão que está na mídia agora e tem grandes chances de viralizar.
Você pode dar pesos diferentes para jogos decisivos como oitavas, quartas, semi e finais.
Podes dar pesos para títulos conseguidos. Jogos em diferentes ligas.
O céu realmente é o limite.
Como existem muitas tabelas dentro do febref, tu vais ter que fazer o scrapping para encontrar os melhores stats. Vai dar um trabalho grande.
Mas isso pode ser reutilizado no futuro.
Além disso, tu podes criar uma ferramenta pra ajudar quem quer fazer bets por exemplo..
Essa é só uma idéia, mas vai da sua criatividade. | | Desafio 45 | https://opendatasus.saude.gov.br/dataset/bps | Análises Exploratórias Básicas (sugestões da IA) Transparência e Eficiência de Compras Públicas • Comparação de preços do mesmo medicamento entre diferentes estados/municípios • Identificação de outliers nos preços (possíveis superfaturamentos ou subfaturamentos) • Análise da variação de preços por modalidade de compra (pregão vs licitação vs compra direta) • Ranking de fornecedores mais competitivos por categoria de produto Análises Geográficas • Mapa de calor dos preços médios por estado/região • Identificação de "desertos" de fornecedores (regiões com poucos fornecedores) • Análise de disparidades regionais nos preços de medicamentos essenciais • Correlação entre localização geográfica e variação de preços Análises Intermediárias Inteligência de Mercado • Análise de concentração de mercado (quais fabricantes dominam quais segmentos) • Identificação de produtos com maior variabilidade de preços • Análise temporal de evolução de preços (usando as datas de compra) • Comparação entre medicamentos genéricos vs marca Otimização de Compras • Sistema de recomendação de fornecedores mais vantajosos por região • Análise de sazonalidade nas compras (se há padrões temporais) • Identificação de oportunidades de compras conjuntas entre instituições Análises Avançadas Machine Learning & Predição • Modelo de predição de preços baseado em características do produto e contexto da compra • Algoritmo de detecção de anomalias para identificar preços suspeitos • Clustering de instituições por padrões de compra • Análise de séries temporais para previsão de tendências de preços Dashboards Interativos • Painel executivo para gestores públicos acompanharem eficiência das compras • Comparador de preços em tempo real para auxiliar compradores • Dashboard de monitoramento de mercado farmacêutico brasileiro Projetos Diferenciados para Portfolio 1. "Observatório de Preços SUS" • Combine dados do BPS com dados do IBGE (população, PIB municipal) • Analise se há correlação entre desenvolvimento socioeconômico e eficiência nas compras • Crie indicadores de performance de compras por região 2. "Radar de Oportunidades" • Desenvolva um sistema que identifique automaticamente oportunidades de economia • Use análise de redes para mapear relacionamentos entre fabricantes/fornecedores • Implemente alertas para variações anômalas de preços 3. "Farmácia Popular Analytics" • Compare preços do BPS com preços de varejo (se conseguir dados complementares) • Analise o impacto econômico do programa em diferentes regiões • Desenvolva métricas de acessibilidade a medicamentos Aspectos Técnicos Interessantes Engenharia de Dados • Pipeline automatizado de ingestão e limpeza dos dados mensais • Implementação de data quality checks (detecção de CNPJs inválidos, preços negativos, etc.) • Sistema de versionamento dos dados históricos Visualização • Use ferramentas como Plotly/Dash, Streamlit ou Power BI • Implemente mapas interativos com Folium • Crie visualizações de redes para relacionamentos entre entidades Deploy e Produção • Containerize a aplicação com Docker • Deploy em cloud (AWS, GCP, Azure) • Implemente CI/CD para atualizações automáticas Dica Extra Considere combinar esses dados com outras fontes públicas como: • Dados do CNES (Cadastro Nacional de Estabelecimentos de Saúde) • Informações epidemiológicas do DATASUS • Dados socioeconômicos do IBGE |