Introdução a aplicativos de informática para auxílio à
pesquisa (2020).
Pedro Emmanuel Alvarenga Americano do
Brasil
http://lattes.cnpq.br/6597654894290806
Paula Mendes Luz
http://lattes.cnpq.br/1664190810210313
Ementa e cronograma
Acesse a ementa com o cronograma como
enviado para o sistema SIGA
da FIOCRUZ. Para os interessados a fazer a disciplina para obter crédito, devem
entrar em contato com a secretaria
acadêmica do Instituto Nacional de Infectologia Evandro Chagas e solicitar
orientações. Usualmente as matrículas para alunos regulares e alunos externos
são em períodos diferentes e ocorrem em janeiro do ano vigente. A disciplina
usualmente é oferecida no início do ano letivo. Esse curso é oferecido como uma
disciplina de pós-graduação tanto para mestrado como para doutorado. A
disciplina é direcionada para profissionais de saúde cursando pós-graduação,
mas o material didático pode ser acessado por qualquer interessado.
Sessões presenciais |
Dia da semana |
Hora |
Professor |
03/02/2020 |
Segunda-feira |
9h
– 12h |
Pedro
Brasil |
10/02/2020 |
Segunda-feira |
9h – 12h |
Pedro
Brasil |
17/02/2020 |
Segunda-feira |
9h – 12h |
Pedro
Brasil |
20/03/2020 |
Quinta-feira |
9h – 12h |
Pedro
Brasil |
A parte de gerenciar referências
bibliográficas, elaborar e utilizar ferramentas para informatização de dados
são módulos obsoletos que estão disponíveis em 2020 apenas por razões
históricas, mas não serão cobrados nas avaliações. O módulo cobrado na
avaliação será o de análise de dados que inclui importar e exportar dados em
diferentes formatos, manipular e editar dados e conhecer ferramentas dos
aplicativos que facilitem a edição e análise de dados. Ainda, ao final do
curso, o aluno deverá ser capaz de encontrar sozinho, material didático,
tutoriais e ferramentas mais avançadas para cumprir com tarefas necessárias na
condução de pesquisa como edição e análise dos seus próprios dados. Essa
redução do conteúdo ocorreu de 2016 para 2017 e se deve a redução da grade
horaria do curso.
Esta disciplina/curso é fruto da
necessidade do conhecimento de alguns programas de computador para o
desenvolvimento de projetos de mestrado/doutorado. Particularmente os alunos
que são obrigados a passar pela disciplina de estatística, sofrem com o dilema
de aprender estatística conjuntamente com o aprendizado de um programa/pacote
de estatística. Assim, a experiência revelou que separar o aprendizado de um
programa de computador e o aprendizado teórico da disciplina otimiza o tempo do
aluno e dos professores.
Muitos perguntam qual é o melhor
programa para cumprir com essa ou aquela tarefa. Talvez a melhor resposta seja
“O melhor programa é aquele que sabemos usar, e que nos atende! ”. O problema é
que não há tempo viável para experimentar todos. O segundo problema é, de certa
forma, decorrente do primeiro. Pois muitas vezes, por não conhecermos bem o
programa, não é possível saber se o programa atende as nossas necessidades.
Assim, apesar de desconfortável, uma situação favorável é já ter conhecimento
que um programa não atende as nossas necessidades e procurar aquele que atende
a determinadas necessidades. Infelizmente, sempre há necessidade de investir
tempo em aprender novas ferramentas, e a questão sempre será se essa ferramenta
dará o retorno esperado.
O curso começou a ter o formato
semipresencial para que houvesse flexibilidade nos horários de dedicação, tanto
por parte dos alunos quanto por parte dos professores. Espera-se que essa
flexibilidade possa atrair mais os alunos para a disciplina e possa também
agradar os alunos inscritos à medida que permite que cada um possa otimizar o
seu tempo como lhe convir.
Para aproveitar bem o curso, tudo que é
necessário para o aluno é um computador com qualquer sistema operacional, e um
mínimo de intimidade para trabalhar com computador. Nenhum pré-requisito é
solicitado.
A primeira edição ocorreu em 2007, e em
2020 ocorre a décima quinta edição. As últimas edições presenciais ocorreram
com carga horária de 54h. A experiência das edições totalmente presenciais
ensinou que o curso seria composto de 12 sessões (de 4 horas cada), sendo
aproximadamente 6 horas por semana. Esse seria o tempo que o aluno gastaria
somente assistindo as aulas. Adicionando-se o tempo que o aluno investe em
estudando em casa e resolvendo os trabalhos a carga horaria deve chegar a 10
horas semanais. É esperado que os alunos se sintam mais confortáveis executando
as tarefas à medida que as oficinas ocorrem, e somente nos últimos dias a
maioria poderá referir que não tem mais o desconforto da ignorância. Então
nesse período final do curso haverá uma sensação de que o tempo está sendo bem
aproveitado.
Em 2018, o curso foi comprimido em 3
semanas e o tempo necessário para "digerir" o conteúdo ficou bem
menor. Por isso, a dedicação diária sobre o material do curso é recomendada com
a reprodução dos exemplos na apostila/video-aulas.
Os alunos são encorajados a interagir
entre si a respeito do conteúdo do curso da forma que lhes for conveniente (em
listas de emails, whatsapp,
facebook, twiter etc), mas também podem e devem interagir entre si nos
fóruns da plataforma moodle (https://moodle.ini.fiocruz.br/). Discussões nesses fóruns podem ser supervisionadas
pelo professore e essas discussões podem eventualmente culminar em
aperfeiçoamento do material didático e da estrutura do curso.
Para o módulo de R, há uma lista de
exercícios/avaliação que é disponibilizada na plataforma moodle
(https://moodle.ipec.fiocruz.br/).
É necessário que o aluno regularmente matriculado solicite acesso (usuário e
senha) na secretaria acadêmica para acessar a plataforma e realizar as avaliações.
Os alunos deverão fazer a lista de exercícios/avaliação e submete-la antes do
prazo final previsto, quando automaticamente a plataforma a torna inacessível.
Uma das motivações das sessões presenciais é justamente repetir o exercício com
os alunos em sala de aula para os alunos perceberem como o professore faria o
mesmo exercício e esclarecer dúvidas. Para isso, é necessário que os alunos
realizem os trabalhos antes dessas sessões. As avaliações são encerradas no
sistema moodle minutos antes da sessão presencial,
por isso os alunos devem estar atentos ao calendário das sessões presenciais.
Na edição de 2020, não há avaliações referentes ao
módulo de gerenciamento bibliográfico ou construção da máscara do banco de
dados. Como a grade em relação às edições anteriores é reduzida, houve
preferência em manter conteúdo de análise de dados (apesar dos demais conteúdos
ainda estarem disponíveis por razões históricas).
Não
faz parte da grade de 2019, mas é mantido aqui
por razões históricas.
Não
faz parte da grade de 2019, mas é mantido
aqui por razões históricas.
Nesse módulo o aluno será introduzido a importação,
manipulação e edição de dados, incluindo geração de algumas tabelas e gráficos.
Os objetivos deste módulo são: permitir que o aluno de pós-graduação em saúde,
não iniciado em “pilotagem de dados”, seja apto a assistir o curso de
estatística já com um mínimo necessário de conhecimento do programa; e importar
e editar os dados a serem utilizados na sua tese/dissertação e encontrar e
entender as funções que o permitam conduzir o plano de análise de seu trabalho.
R é uma linguagem e ambiente para computação
estatística e gráfica. O R é um sistema desenvolvido a partir da linguagem S,
que tem suas origens nos laboratórios da AT&T no final dos anos 1980.
Posteriormente o S foi vendido e deu origem a uma versão comercial, o S-Plus.
Em 1995 dois professores de estatística da Universidade de Auckland, na Nova
Zelândia, iniciaram o “Projeto R” (porque R vem antes de S no alfabeto), com o
intuito de desenvolver um programa estatístico baseado na linguagem S, e de
domínio público. O R pode ser baixado gratuitamente em http://www.r-project.org. Recomenda-se
também a utilização do RStudio, que auxilia na
manipulação do R. Este também pode ser adquirido gratuitamente em https://www.rstudio.com/.
Nas edições do curso entre 2007 e 2012, o SPSS foi
utilizado para ministrar esse módulo. No entanto, devido ao problema de licença
e a dificuldade dos alunos de adquirirem o programa, finalmente o R foi adotado
em 2012. Então a principal motivação para essa adoção é porque o R é livre –
opensource.org. O R também possui outras de vantagens sobre todos os outros
programas de análise, como a flexibilidade de programação e contribuições de
usuários. No entanto, possui uma desvantagem grande em relação aos demais
programas: o R possui uma linguagem bem particular e não possui uma interface
gráfica amigável aos não iniciados que permita
começar o seu uso com funções a partir de menus e janelas de diálogos (essa
afirmação não é totalmente verdade, mas as interfaces gráficas são todas
desenvolvidas por usuários). Assim, tudo deve ser feito com linhas de comando o
que torna o seu aprendizado mais longo. Por isso, muitos dos alunos na área da
saúde adquirem ojeriza do R. Isso é particularmente perceptível pelos alunos
que já foram iniciados em outros pacotes. No entanto, ao longo do curso essa
mística deve cair e os alunos devem perceber, que após entender algumas lógicas
de trabalho, a lógica de linhas de comando é boa prática e o programa apresenta
mais vantagens do que desvantagens.
É esperado que os alunos leiam a apostila em conjunto
com as vídeo-aulas. O aluno deve repetir os exemplos, executando-os no seu
próprio computador para se habituar a executar as tarefas com o programa. O
material elaborado para o curso foi atualizado em 2019. Os vídeos antigos ainda
podem ser visualizados, são bons exemplos e podem ser baixados aqui. Eles foram atualizados
principalmente porque o formato de vídeo não mais suportado pelos navegadores.
Por isso, para visualiza-los é necessário ter um visualizador de flash como o http://www.swffileplayer.com/. Mesmo
assim, caso qualquer exemplo do material não funcione, tenha ficado obsoleto ou
não faça sentido, comunique indicando o erro para que o material possa ser
atualizado. Com frequência repito para os alunos que este material é um
material inicial, e que para conduzir as análises de dados de seus projetos é
interessante que tenham literatura direcionada para o seu plano de análise,
preferencialmente com exemplos utilizando código R, por exemplo:
·
Machine Learning with R cookbook
·
Clinical trial data analysis using R
and SAS
·
Bayesian
Cost-Effectiveness Analysis with the R package BCEA
Material didático do curso:
·
ZIP com todos os bancos utilizados nos exemplos.
Todos os vídeos devem ser assistidos na
sequência. Estes foram gravados com duração de até 5 min por conta de tamanho
de arquivo.
Etapa |
Vídeo |
Os vídeos do primeiro bloco podem ser baixados aqui |
|
Início e
Instalação |
|
|
|
|
|
Racional |
|
|
|
|
|
|
|
Operações com
vetores e Objetos |
|
|
|
|
|
Acessando a
documentação e ajuda |
|
Atributos |
|
|
|
Pacotes com
funções adicionais |
|
|
|
|
|
Importação de
dados |
|
|
|
|
|
|
|
|
|
Tipos de
variáveis |
|
|
|
|
|
Se você assistiu até aqui, o conteúdo da primeira
avaliação foi coberto. Proceda para
a avaliação. |
|
Os vídeos do segundo bloco podem ser baixados aqui |
|
Edição de dados |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Descrevendo
estatísticas sumárias |
|
|
|
|
|
|
|
|
|
|
|
|
|
Se você assistiu até aqui, o conteúdo da segunda
avaliação foi coberto. Proceda para
a avaliação. |
|
Os vídeos do terceiro bloco podem ser baixados aqui |
|
Salvar
resultados no disco |
|
|
|
|
|
Gráficos |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Se você assistiu até aqui, o conteúdo da terceira
avaliação foi coberto. Proceda para
a avaliação. |
|