股资源-股票学习站-学炒股-股票课程-炒股教程-分析选股指标-入门基础知识

 找回密码
 注册昵称

QQ登录

只需一步,快速开始

搜索
发新帖回复
上一主题 下一主题

从Excel到Python——数据分析进阶指南 王彦平

 
    [-----复制链接-----]

22万

主题

22万

帖子

14

精华

积分
11042
楼主
2021-1-20 16:10:47
【资料名称】:从Excel到Python——数据分析进阶指南    
【资料描述】:

  Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过Python完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
  目录
  作者简介
  序
  第1章 生成数据表
  第2章 数据表检查
  第3章 数据表清洗
  第4章 数据预处理
  第5章 数据提取
  第6章 数据筛选
  第7章 数据汇总
  第8章 数据统计
  第9章 数据输出
  案例 990万次骑行:纽约自行车共享系统分析
  结束语
  欢迎来到异步社区!
  前言
  序
  Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过Python完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
  精彩书摘
  第1章 生成数据表
  常见的生成数据表的方法有两种,第一种是导入外部数据,第二种是直接写入数据。Excel中的“文件”菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。
  Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也同时导入numpy库。
  import numpy as np
  import pandas as pd
  1. 导入数据表
  下面分别是从Excel和csv格式文件中导入数据并创建数据表的方法。代码是最简模式,里面有很多可选参数设置,例如列名称、索引列、数据格式等。感兴趣的朋友可以参考pandas的官方文档。
  df=pd.DataFrame(pd.read_csv('name.csv',header=1))
  df=pd.DataFrame(pd.read_Excel('name.xlsx'))
  2. 创建数据表
  另一种方法是通过直接写入数据来生成数据表,Excel中直接在单元格中输入数据就可以,Python中通过下面的代码来实现。生成数据表的函数是pandas库中的DateFrame函数,数据表一共有6行数据,每行有6个字段。在数据中我们特意设置了一些NA值和有问题的字段,例如包含空格等。后面将在数据清洗步骤进行处理。后面我们将统一以DataFrame的简称df来命名数据表。
  df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
  "date":pd.date_range('20130102', periods=6),
  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
  "age":[23,44,54,32,34,32],
  "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =['id','date','city','category','age','price'])
  这是刚刚创建的数据表,我们没有设置索引列,price字段中包含有NA值,city字段中还包含了一些脏数据。



【下载地址隐藏】:                    点:回复可见地址
游客,如果您要查看本帖隐藏内容请回复






上一篇:暗黑操盤手的告白:百億私募基金經理人操盤心法
下一篇:白话大数据与机器学习 高扬 卫峥
回复

举报

QQ|

GMT+8, 2024-11-25 16:55

快速回复 返回顶部 返回列表