Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Class Notes Contando de n para N Introdução Stata tem duas variáveis internas chamadas n e N. N é a notação Stata para o número de observação atual. N é 1 na primeira observação, 2 na segunda, 3 na terceira, e assim por diante. N é a notação Stata para o número total de observações. Vejamos como n e N funcionam. Como você pode ver, o ID da variável contém o número de observação executado de 1 a 7 e nt é o número total de observações, que é 7. Contando com usando n e N em conjunto com o comando by podem produzir alguns resultados muito úteis. Naturalmente, para usar o comando by, primeiro devemos classificar nossos dados na variável por. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo use o seguinte: Para listar a pontuação mais alta para cada grupo use o seguinte: Outra utilização de n Permite usar n para descobrir se há números de identificação duplicados nos seguintes dados: Como se verifica, As observações 6 e 7 têm os mesmos números de identificação e valores de pontuação diferentes. Encontrando Duplicatas Agora vamos usar N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos todas as variáveis na instrução by e definimos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando assim as observações duplicadas. Se você tem um monte de variáveis no conjunto de dados, pode demorar muito tempo para digitá-los todos fora duas vezes. Podemos fazer uso do caractere curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar sort e by em uma única declaração. Abaixo está uma versão simplificada do código que irá produzir os mesmos resultados exatos como acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Este tutorial de importação de dados do R é tudo o que você precisa Você pode achar que carregar dados em R pode ser bastante Frustrante Quase todos os tipos de arquivo que você deseja obter em R parece requerer sua própria função e mesmo assim você pode se perder nos argumentos de funções. Em suma, pode ser bastante fácil de misturar as coisas de vez em quando, se você é um novato ou um usuário mais avançado R. Para cobrir essas necessidades, o DataCamp decidiu publicar um tutorial abrangente e fácil de importar rapidamente dados para R, indo de arquivos de texto simples para os arquivos SPSS e SAS mais avançados. Continue lendo para descobrir como importar facilmente seus arquivos para R Para importar dados para R, primeiro você precisa ter dados. Esses dados podem ser salvos em um arquivo em seu computador (por exemplo, um Excel local, SPSS ou algum outro tipo de arquivo), mas também podem viver na Internet ou ser obtidos através de outras fontes. Onde encontrar esses dados estão fora do escopo deste tutorial, por isso agora é o suficiente para mencionar esta postagem no blog. Que explica bem como encontrar dados na internet, e DataCamps tutorial interativo. Que trata de como importar e manipular conjuntos de dados Quandl. Dica: antes de você seguir em frente e descobrir como carregar seus dados em R, pode ser útil passar a seguinte lista de verificação que tornará mais fácil importar os dados corretamente para R: Se você trabalha com planilhas, a primeira linha é normalmente Reservado para o cabeçalho, enquanto a primeira coluna é usada para identificar a unidade de amostragem Evite nomes, valores ou campos com espaços em branco, caso contrário, cada palavra será interpretada como uma variável separada, resultando em erros relacionados ao número de elementos por linha No seu conjunto de dados Se você quiser concatenar palavras, inserindo um arquivo. Entre as palavras em vez de um espaço Nomes curtos são preferidos sobre nomes mais longos Tente evitar o uso de nomes que contenham símbolos como. . . . Amp. . (.). -. . Lt Gt. /. . . . . Exclua os comentários que você fez no arquivo do Excel para evitar que colunas extras ou ANs sejam adicionadas ao arquivo e Certifique-se de que os valores ausentes no seu conjunto de dados sejam indicados com NA. Preparando o seu espaço de trabalho R Certifique-se de entrar no RStudio e ver o que precisa ser feito antes de iniciar seu trabalho lá. Você pode ter um ambiente que ainda está cheio de dados e valores, que você pode excluir usando a seguinte linha de código: A função rm () permite remover objetos de um ambiente especificado. Nesse caso, você especifica que deseja considerar uma lista para essa função, que é o resultado da função ls (). Esta última função retorna um vetor de strings de caracteres que fornece os nomes dos objetos no ambiente especificado. Uma vez que esta função não tem nenhum argumento, presume-se que você quer dizer os conjuntos de dados e funções que você como usuário definiu. Em seguida, você também pode achar útil saber onde seu diretório de trabalho está definido no momento: E você pode considerar mudar o caminho que você obtém como resultado desta função, talvez para a pasta na qual você armazenou seu conjunto de dados: Obtendo dados de fontes comuns em R Você verá que as seguintes funções básicas de R se concentram em obter planilhas em R, ao invés de Excel ou outro tipo de arquivos. Se você estiver mais interessado no último, percorra um pouco mais para descobrir as maneiras de importar outros arquivos em R. Importando arquivos TXT Se você tiver um. txt ou um arquivo de texto delimitado por tabulações, você pode facilmente importá-lo com o arquivo R básico Função read. table (). Em outras palavras, o arquivo será semelhante a este e pode ser importado da seguinte maneira: Observe que, usando essa função, os dados do arquivo se tornará um objeto data. frame. Observe também que o primeiro argumento não é sempre um nome de arquivo, mas também poderia ser uma página da Web que contém dados. O argumento de cabeçalho especifica se você especificou ou não nomes de colunas em seu arquivo de dados. O resultado final da sua importação será mostrado no console do RStudio como: Bom saber A função read. table () é a função mais importante e comumente usada para importar arquivos de dados simples para o R. É fácil e flexível. É por isso que você deve definitivamente verificar o nosso tutorial anterior sobre a leitura e importação de arquivos do Excel em R. que explica em grande detalhe como usar a função read. table () otimamente. Para arquivos que não são delimitados por guias, como. csv e outros arquivos delimitados, você realmente usa variantes dessa função básica. Essas variantes são quase idênticas à função read. table () e diferem dele apenas em três aspectos: O símbolo separador O argumento cabeçalho é sempre definido em TRUE, o que indica que a primeira linha do arquivo sendo lido contém o cabeçalho com o Nomes de variáveis O argumento de preenchimento também é definido como VERDADEIRO, o que significa que se as linhas tiverem comprimento desigual, campos em branco serão adicionados implicitamente. Importando arquivos CSV Se você tiver um arquivo que separa os valores com a. Ou. Você normalmente está lidando com um arquivo. csv. Parece um pouco como este: Para carregar com êxito este arquivo em R, você pode usar a função read. table () na qual você especifica o caractere separador, ou você pode usar o read. csv () ou read. csv2 () funções. A função anterior é usada se o separador for a. O último se for usado para separar os valores em seu arquivo de dados. Lembre-se de que a função read. csv () bem como a função read. csv2 () são quase idênticas à função read. table (), com a única diferença de que eles têm os argumentos de cabeçalho e preenchimento definidos como TRUE por padrão. Dica: se você quiser saber mais sobre os argumentos que você pode usar no read. table (). Read. csv () ou read. csv2 (), você sempre pode verificar nossa leitura e importação de arquivos do Excel para R tutorial, o que explica em grande detalhe como usar o read. table (). Read. csv () ou read. csv2 (). Importando arquivos com outros caracteres separadores Caso você tenha um arquivo com um caractere separador que seja diferente de uma guia, uma vírgula ou um ponto e vírgula, você sempre pode usar as funções read. delim () e read. delim2 (). Estas são variantes da função read. table (), assim como a função read. csv (). Consequentemente, eles têm muito em comum com a função read. table (), exceto pelo fato de que eles assumem que a primeira linha que está sendo lida é um cabeçalho com os nomes dos atributos, enquanto eles usam uma guia como um separador em vez de Um espaço em branco, vírgula ou ponto e vírgula. Eles também têm o argumento de preenchimento definido como TRUE. O que significa que o campo em branco será adicionado a linhas de comprimento desigual. Você pode usar as funções read. delim () e read. delim2 () da seguinte maneira: Importando arquivos do Excel em R Para carregar arquivos do Excel em R, primeiro você precisa fazer um pouco mais de preparação do seu espaço de trabalho no sentido que você precisa instalar Pacotes. Basta executar o seguinte código para fazer isso: Quando você tiver instalado o pacote, basta digitar o seguinte para ativá-lo em seu espaço de trabalho: Para verificar se você já instalou o pacote ou não, digite Importando arquivos do Excel com o Pacote XLConnect A primeira maneira de obter arquivos do Excel diretamente em R é usando o pacote XLConnect. Instale o pacote e se você não tem certeza se você já tem ou não, verifique se ele já está lá. Em seguida, você pode começar a usar a função readWorksheetFromFile (), como mostrado abaixo: Note que você precisa adicionar o argumento sheet para especificar qual folha você deseja carregar em R. Você também pode adicionar mais especificações. Você pode encontrar estes explicados em nosso tutorial sobre leitura e importação de arquivos Excel em R. Você também pode carregar em um livro inteiro com a função loadWorkbook (), para ler nas planilhas que você deseja aparecer como quadros de dados em R através de readWorksheet ): Observe novamente que o argumento de folha não é o único argumento que você pode usar em readWorkSheetFromFile (). Se você desejar mais informações sobre o pacote ou sobre todos os argumentos que você pode passar para a função readWorkSheetFromFile () ou para as duas funções alternativas que foram mencionadas, você pode visitar a página RDocumentation pacotes. Importar arquivos do Excel com o pacote Readxl O pacote readxl foi publicado recentemente e permite que os usuários do R leiam facilmente em arquivos do Excel, assim: Note que o primeiro argumento especifica o caminho para o arquivo. xls ou. xlsx, que você pode Definido usando as funções getwd () e setwd (). Você também pode adicionar um argumento de folha, assim como com o pacote XLConnect, e muitos mais argumentos sobre os quais você pode ler aqui ou nesta postagem do blog. Importando arquivos JSON (JavaScript Object Notation) para R Para obter arquivos JSON em R, primeiro você precisa instalar ou carregar o pacote rjson. Se você quiser saber como instalar pacotes ou como verificar se os pacotes já estão instalados, role um pouco até a seção de importação de arquivos do Excel para R. Depois de ter feito isso, você pode usar a função fromJSON (). Aqui, você tem duas opções: Seu arquivo JSON é armazenado em seu diretório de trabalho. Seu arquivo JSON está disponível através de um URL. Importando dados XML em R Se você quiser obter dados XML em R, uma das maneiras mais fáceis é através do uso do pacote XML. Primeiro, certifique-se de instalar e carregar o pacote XML em sua área de trabalho, como demonstrado acima. Em seguida, você pode usar a função xmlTreeParse () para analisar o arquivo XML diretamente da web: Em seguida, você pode verificar se R sabe que xmlfile está em XML digitando: Dica: você pode usar a função xmlRoot () para acessar o top Nó: Você verá que os dados são apresentados de forma estranha quando você tenta imprimir o vetor xmlfile. Isso ocorre porque o arquivo XML ainda é um documento XML real em R neste momento. Para colocar os dados em um quadro de dados, primeiro você precisa extrair os valores XML. Você pode usar a função xmlSApply () para fazer isso: O primeiro argumento desta função será topxml. Uma vez que é o nó superior em cujos filhos você deseja executar uma determinada função. Em seguida, você lista a função que você deseja aplicar a cada nó filho. Nesse caso, você deseja extrair o conteúdo de um nó XML folha. Isto, em combinação com o primeiro argumento topxml. Irá certificar-se de que você fará isso para cada nó XML folha. Por fim, você coloca os valores em um dataframe Você usa a função data. frame () em combinação com a função de transposição de matriz t () para fazer isso. Além disso, você também especificar que nenhum nome de linha deve ser incluído: Você também pode optar por não fazer todas as etapas anteriores, que são um pouco mais complicado, e apenas fazer o seguinte: Importação de dados de tabelas HTML Into R Obtendo dados de tabelas HTML Em R é bastante direto: Note que o argumento permite que você especifique quais tabelas retornar de dentro do documento. Se isso lhe dá um erro na natureza da falha ao carregar a entidade externa, não se confunda: este erro foi sinalizado por muitas pessoas e foi confirmado pelo autor pacotes aqui. Você pode contornar isso usando o pacote RCurl em combinação com o pacote XML para ler em seus dados: Observe que você não quer que as seqüências de caracteres sejam registradas como fatores ou variáveis categóricas Você também pode usar o pacote httr para realizar exatamente a mesma coisa , Exceto pelo fato de que você deseja converter os objetos brutos do conteúdo de URLs para caracteres usando o argumento rawToChar: Obtendo dados de pacotes de software estatísticos em R Para os seguintes programas de software estatísticos mais avançados, existem pacotes correspondentes que você primeiro Preciso instalar para ler seus arquivos de dados em R, assim como você faz com o Excel ou JSON. Importando arquivos SPSS para R Se você for um usuário do software SPSS e estiver procurando importar seus arquivos SPSS para R, primeiro instale o pacote externo. Depois de carregar o pacote, execute a função read. spss () que está contida nele e você deve ser bom para ir Dica: se você deseja que o resultado seja exibido em um quadro de dados, certifique-se de definir o arquivo to. data. frame Argumento da função read. spss () para TRUE. Além disso, se você NÃO desejar que as variáveis com rótulos de valores sejam convertidas em fatores R com níveis correspondentes, defina o argumento use. value. labels como FALSE: Lembre-se de que os fatores são variáveis que podem conter apenas um número limitado de valores diferentes . Como tal, eles são muitas vezes chamados de variáveis categóricas. Os diferentes valores de fatores podem ser rotulados e, portanto, são muitas vezes chamados de etiquetas de valor. Importando Arquivos de Stata para R Para importar arquivos de Stata, você continua usando o pacote externo: Importando Arquivos de Systat para R Se você deseja obter arquivos de Systat em R, Quer usar o pacote estrangeiro, como mostrado abaixo: Importando arquivos SAS em R Para aqueles usuários R que também querem importar arquivos SAS para R, é muito simples Para iniciantes, instale o pacote sas7bdat. Carregá-lo e, em seguida, invocar a função read. sas7bdat () contida no pacote e você é bom para ir Esta função de interesse você e você quer saber mais Visite a página Rdocumentation. Importar ficheiros do Minitab para R O seu software de escolha para fins estatísticos é o Minitab. Não procure mais se você quiser usar dados do Minitab em R Importar arquivos. mtp para R é bastante direto. Para começar, instale o pacote externo e carregue-o. Em seguida, basta usar a função read. mtp () desse pacote: Importando arquivos RDA ou RData para R Se seu arquivo de dados é aquele que você salvou em R como um arquivo. rdata, você pode lê-lo da seguinte maneira: Obtendo dados de Outras Fontes Into R Como este tutorial se concentra em importar dados de diferentes tipos de fontes, é justo mencionar também que você pode importar dados em R provenientes de bancos de dados, webscraping, etc. Importando Dados de Bancos de Dados Importando Dados de Bancos de Dados Relacionais Para Mais informações sobre como obter dados de bancos de dados relacionais em R, confira este tutorial para importar dados do MonetDB. Se, no entanto, você quiser carregar dados do MySQL em R, você pode seguir este tutorial. Que usa o pacote dplyr para importar os dados para R. Se você estiver interessado em saber mais sobre este último pacote, certifique-se de verificar DataCamps curso interativo. Que é definitivamente uma obrigação para todos que deseja usar dplyr para acessar dados armazenados fora de R em um banco de dados. Além disso, o curso também ensina como executar tarefas sofisticadas de manipulação de dados usando dplyr. Importando dados de bancos de dados não-relacionais Para obter mais informações sobre o carregamento de dados de bancos de dados não relacionais em R, como dados do MongoDB. Você pode ler este blogpost de Ainda outro blog em Computação Estatística para uma visão geral sobre como carregar dados do MongoDB em R. Importando dados através de Webscraping Você pode ler sobre como raspar dados JavaScript com R com o uso de PhantomJS eo pacote rvest Neste tutorial do DataCamp. Se você quiser usar APIs para importar seus dados, você pode facilmente encontrar um aqui. Dica: você pode conferir este conjunto de tutoriais incríveis que lidam com os conceitos básicos de webscraping. Importando dados através do pacote TM Para aqueles que estão interessados em importar dados textuais para começar a extrair textos, você pode ler no arquivo de texto da seguinte maneira depois de ter instalado e ativado o pacote tm: Então, você deve se certificar de que Você carrega esses dados como um corpus para começar corretamente: Você pode encontrar um tutorial acessível sobre o texto de mineração com R aqui. Este é apenas o começo Carregando seus dados em R é apenas um pequeno passo na sua análise de dados emocionante, manipulação e visualização viagem. DataCamp está aqui para guiá-lo através dele Se você é um novato, certifique-se de verificar os nossos tutoriais sobre a aprendizagem da máquina e histogramas. Se você já é um usuário mais avançado R, você pode estar interessado em ler o nosso tutorial sobre 15 Soluções Fáceis Para Seu Problemas Quadro Dados Em R. Além disso, não se esqueça de passar por DataCamp para ver se a nossa oferta de cursos interativos em R pode interessar You O que você achaImportar dados para o MS Excel é o processo de transferência de dados de outras fontes de banco de dados e convertê-lo em formato. xls. Esse processo elimina a necessidade de inserir manualmente cada item em uma nova planilha do Excel. Importar dados, portanto, poupa o usuário muito tempo e reduz o erro humano. Os dados de origem são chamados de fonte de dados interna se ele estiver localizado em arquivos ou pastas em um computador pessoal. Importação de dados através da função de importação de dados Em uma nova planilha do Microsoft Excel, clique no menu da barra de tarefas intitulado Dados e role para baixo para Importar dados externos. Um novo menu aparecerá à direita. Selecione Importar dados para abrir a caixa de diálogo Selecionar origem de dados. Procure os arquivos no computador para localizar a fonte de dados ou o arquivo. Basta lembrar que os dados devem estar em um formato que o Excel suporta. Os dados são importáveis para o Excel se ele aparecer nas configurações padrão da caixa de diálogo Selecionar origem de dados Arquivos de tipo, Todas as fontes de dados. Quando a origem de dados ou o arquivo estiver selecionado, clique em Abrir. A caixa de diálogo Selecionar tabela será exibida. Realce a planilha específica a ser importada e clique em OK na parte inferior da caixa de diálogo. A janela Importar dados aparecerá e perguntará onde os dados importados devem ser colocados. Clique no botão folha de cálculo existente para colocar os dados na folha de cálculo actual ou clique no botão para nova folha de cálculo para adicionar outra folha de cálculo para o ficheiro MS Excel actual para acomodar dados importados. Depois de escolher, clique em OK no canto superior direito da janela para iniciar a importação de dados. Para importar outras planilhas do mesmo arquivo, repita o processo. Selecione outra planilha quando a janela Selecionar Tabela aparecer. Importando dados através de copiar e colar Para importar dados de outro arquivo. xls, a importação de dados para um novo arquivo do Excel pode ser feita através da cópia e colagem. Basta abrir um novo arquivo de pasta de trabalho ou uma nova planilha em um arquivo existente do Excel. Abra também a pasta de trabalho do Excel de origem. No arquivo de origem do Excel, selecione a planilha a ser importada clicando na célula no canto superior esquerdo, a célula de vértice entre a Coluna A ea Linha 1. Isso realçará todos os valores na planilha de origem. Clique com o botão direito do mouse em seguida, selecione Copiar no menu pop-up ou selecione Editar e, em seguida, Copiar do menu de planilha do Excel Barra de tarefas. Clique na guia de pasta de trabalho do Excel de destino e clique na mesma célula de vértice entre a coluna A ea linha 1 na planilha de destino. Clique com o botão direito do mouse e selecione Colar no menu do botão direito do mouse ou selecione Editar na barra de tarefas do menu e role para baixo para Colar. Isso transferirá todos os valores, formatos e fórmula da planilha de origem para o novo arquivo do Excel. Mais guias sobre como usar o Microsoft Excel
No comments:
Post a Comment