python班级数据分析(python数据分析怎么做)python数据分析2:DataFrame对象DataFrame对象:二维表数据结构,由行列数据组成的表格 常用index表示行,columns表示列 ''' ? 语文? 数学? 英语 0? 110? 105? ? 99 1? 105? ? 88? 115 2? 109? 120? 130 ''' # print(df.columns)? # Index(['语文', '数学', '英语'], dtype='object') # print(df.index)? # Int64Index([0, 1, 2], dtype='int64') # 遍历DataFrame数据的每一列 ''' 0? ? 110 1? ? 105 2? ? 109 Name: 语文, dtype: int64 0? ? 105 1? ? 88 2? ? 120 Name: 数学, dtype: int64 0? ? 99 1? ? 115 2? ? 130 Name: 英语, dtype: int64 ''' 1.创建一个DataFrame对象 pandas.DataFrame(data,index,columns,dtype,copy) # data表示数据,可以是ndarray数组,series对象、列表、字典等 # index表示行标签(索引) # columns表示列标签(索引) # dtype每一列数据的数据类型 # copy用于复制数据 # 返回值DataFrame 通过二维数组创建成绩表 ''' ? 语文? 数学? 英语 0? 110? 105? ? 99 1? 105? ? 88? 115 2? 109? 120? 130 ''' 2.通过字典创建DataFrame对象 value值只能是一维数组或单个的简单数据类型 # 数组,则要求所有的数组长度一致 # 单个数据,每行都需要添加相同数据 ''' ? 语文? 数学? 英语? ? 班级 0? 110? 105? 109? 高一7班 1? 105? ? 88? 120? 高一7班 2? ? 99? 115? 130? 高一7班 ''' ''' 【DataFrame属性】 values 查看所有元素的值? df.values dtypes 查看所有元素的类型? df.dtypes index 查看所有行名、重命名行名? df.index? ? df.index=[1,2,3] columns 查看所有列名、重命名列名? df.columns? df.columns=['语','数'] T 行列数据转换? df.T head 查看前n条数据,默认5条? ? ? ? ? ? ? ? df.head()? df.head(10) tail 查看后n条数据,默认5条? ? ? ? ? ? ? ? df.tail()? df.tail(10) shape 查看行数和列数,[0]表示行,[1]表示列? ? df.shape[0]? df.shape[1] info 查看索引,数据类型和内存信息? ? df.info 【DataFrame函数】 describe 查看每列的统计汇总信息,DataFrame类型? df.describe() count? ? 返回每一列中的非空值的个数? ? ? ? ? ? ? df.count() sum? ? ? 返回每一列和和,无法计算返回空值? ? ? df.sum() max? ? ? 返回每一列的最大值? ? ? ? ? ? ? ? df.max() min? ? ? 返回每一列的最小值? ? ? ? ? ? ? ? df.min() argmax? 返回最大值所在的自动索引位置? ? ? ? df.argmax() argmin? 返回最小值所在的自动索引位置? ? ? ? df.argmin() idxmax? 返回最大值所在的自定义索引位置? ? ? df.idxmax() idxmin? 返回最小值所在的自定义索引位置? ? ? df.idxmin() mean? ? 返回每一列的平均值? ? ? ? ? ? ? ? df.mean() median? 返回每一列的中位数? ? ? ? ? ? ? ? df.median() var? ? ? 返回每一列的方差? ? ? ? ? ? ? ? ? df.var() std? ? ? 返回每一列的标准差? df.std() isnull? 检查df中的空值,空值为True,否则为False,返回布尔型数组? df.isnull() notnull? 检查df中的空值,非空值为True,否则为False,返回布尔型数组? df.notnull() 中位数又称中值,是指按顺序排列的一组数据中居于中间位置的数 方差用于度量单个随机变量的离散程序(不连续程度) 标准差是方差的算术平方根,反映数据集的离散程度 ''' 3. 导入.xls或.xlsx文件 # pandas.read_excel(io,sheetname=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrow=None,na_values=None,keep_defalut_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,conver_float=True,mangle_dupe_cols=True,**kwds) ''' io 字符串,xls或xlsx文件路径或类文件对象 sheet_name:None、字符串、整数、字符串列表或整数列表,默认值为0 ? ? 字符串用于工作表名称;整数为索引,表示工作表位置 ? ? 字符串列表或整数列表用于请求多个工作表,为None时则获取所有的工作表 ? ? sheet_name = 0 第一个Sheet页中的数据作为DataFrame对象 ? ? sheet_name = 1 第二个Sheet页中的数据作为DataFrame对象 ? ? sheet_name = 'Sheet1' 名为Sheet1的Sheet页中的数据作为DataFrame对象 ? ? sheet_name = [0,1,'Sheet3'] 第一个,第二个和名为Sheet3的Sheet页中的数据作为DataFrame对象 header:指定作为列名的行,默认值为0,即取第一行的值为列名。或数据不包含列名,则为header=None names:默认值为None,要使用的列名列表 index_col:指定列为索引列,默认值为None,索引0是DataFrame对象的行标签 usecols:int、list或字符串,默认值为None ? ? 如为None,则解析所有列 ? ? 如为int,则解析最后一列 ? ? 如为list列表,则解析列号和列表的列 ? ? 如为字符串,则表示以逗号分隔的Excel列字母和列范围列表 squeeze:布尔值,默认为False,如果解析的数据只包含一列,则返回一个Series dtype:列的数据类型名称为字典,默认值为None skiprows:省略指定行数的数据,从第一行开始 skipfooter:省略指定行数的数据,从尾部数的行开始 4.导入指定Sheet页的数据 # sheet_name=0表示第一个sheet页的数据,以此类推,如果不指定,则导入第一页 5.指定行索引导入Excel数据 ''' Empty DataFrame Columns: [] Index: [1, 3, 5] ''' # 导入第一列数据 ''' Empty DataFrame Columns: [] Index: [1, 3, 5] ''' python数据分析的一般步骤是什么下面是用python进行数据分析的一般步骤: 一:数据抽取 从外部源数据中获取数据 保存为各种格式的文件、数据库等 使用Scrapy爬虫等技术 二:数据加载 从数据库、文件中提取数据,变成DataFrame对象 pandas库的文件读取方法 三:数据处理 数据准备: 对DataFrame对象(多个)进行组装、合并等操作 pandas库的操作 数据转化: 类型转化、分类(面元等)、异常值检测、过滤等 pandas库的操作 数据聚合: 分组(分类)、函数处理、合并成新的对象 pandas库的操作 四:数据可视化 将pandas的数据结构转化为图表的形式 matplotlib库 五:预测模型的创建和评估 数据挖掘的各种算法: 关联规则挖掘、回归分析、聚类、分类、时序挖掘、序列模式挖掘等 六:部署(得出结果) 从模型和评估中获得知识 知识的表示形式:规则、决策树、知识基、网络权值 更多技术请关注python视频教程。 python如何做数据分析用Python做数据分析,大致流程如下: 1、数据获取 可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包,比如pymssql、pymysql、cx_Oracle等。 2、数据存储 企业当中的数据存储,通过通过数据库如Mysql来存储与管理,对于非结构化数据的存储可以使用MongoDB等。对于使用Python进行网络抓取的数据,我们也可以使用pymysql包快速地将其存储到Mysql中去。 3、数据预处理/数据清洗 大多数情况下,原始数据是存在格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。Python做数据清洗,可以使用Numpy和Pandas这两个工具库。 4、数据建模与分析 常见的数据挖掘模型有:分类、聚类、回归等,这些常见的算法模型,Python也有Scikit-learn和Tensorflow工具库来支持。 5、数据可视化分析 在数据可视化方面,Python有Matplotlib、Seaborn、Pyecharts等工具库可用。 怎样用 Python 进行数据分析?做数据分析,首先你要知道有哪些数据分析的方法,然后才是用Python去调用这些方法 那Python有哪些库类是能做数据分析的,很多,pandas,sklearn等等 所以你首先要装一个anaconda套件,它包含了几乎所有的Python数据分析工具, 之后再学怎么分析。 |