当前位置: 考试资料网 > 会计 > 中级会计师 > 中级会计实务题库 >

python班级数据分析(python数据分析怎么做)

时间:2023-03-20 06:58来源:考试资源网考试资料网

python班级数据分析(python数据分析怎么做)

admin3周前 (02-19)免费1

python数据分析2：DataFrame对象

DataFrame对象：二维表数据结构，由行列数据组成的表格

常用index表示行，columns表示列

'''

? 语文? 数学? 英语

0? 110? 105? ? 99

1? 105? ? 88? 115

2? 109? 120? 130

'''

# print(df.columns)? # Index(['语文', '数学', '英语'], dtype='object')

# print(df.index)? # Int64Index([0, 1, 2], dtype='int64')

# 遍历DataFrame数据的每一列

'''

0? ? 110

1? ? 105

2? ? 109

Name: 语文, dtype: int64

0? ? 105

1? ? 88

2? ? 120

Name: 数学, dtype: int64

0? ? 99

1? ? 115

2? ? 130

Name: 英语, dtype: int64

'''

1.创建一个DataFrame对象

pandas.DataFrame(data,index,columns,dtype,copy)

# data表示数据，可以是ndarray数组，series对象、列表、字典等

# index表示行标签（索引）

# columns表示列标签（索引）

# dtype每一列数据的数据类型

# copy用于复制数据

# 返回值DataFrame

通过二维数组创建成绩表

'''

? 语文? 数学? 英语

0? 110? 105? ? 99

1? 105? ? 88? 115

2? 109? 120? 130

'''

2.通过字典创建DataFrame对象

value值只能是一维数组或单个的简单数据类型

# 数组，则要求所有的数组长度一致

# 单个数据，每行都需要添加相同数据

'''

? 语文? 数学? 英语? ? 班级

0? 110? 105? 109? 高一7班

1? 105? ? 88? 120? 高一7班

2? ? 99? 115? 130? 高一7班

'''

【DataFrame属性】

values 查看所有元素的值? df.values

dtypes 查看所有元素的类型? df.dtypes

index 查看所有行名、重命名行名? df.index? ? df.index=[1,2,3]

columns 查看所有列名、重命名列名? df.columns? df.columns=['语','数']

T 行列数据转换? df.T

head 查看前n条数据，默认5条? ? ? ? ? ? ? ? df.head()? df.head(10)

tail 查看后n条数据，默认5条? ? ? ? ? ? ? ? df.tail()? df.tail(10)

shape 查看行数和列数，[0]表示行，[1]表示列? ? df.shape[0]? df.shape[1]

info 查看索引，数据类型和内存信息? ? df.info

【DataFrame函数】

describe 查看每列的统计汇总信息，DataFrame类型? df.describe()

count? ? 返回每一列中的非空值的个数? ? ? ? ? ? ? df.count()

sum? ? ? 返回每一列和和，无法计算返回空值? ? ? df.sum()

max? ? ? 返回每一列的最大值? ? ? ? ? ? ? ? df.max()

min? ? ? 返回每一列的最小值? ? ? ? ? ? ? ? df.min()

argmax? 返回最大值所在的自动索引位置? ? ? ? df.argmax()

argmin? 返回最小值所在的自动索引位置? ? ? ? df.argmin()

idxmax? 返回最大值所在的自定义索引位置? ? ? df.idxmax()

idxmin? 返回最小值所在的自定义索引位置? ? ? df.idxmin()

mean? ? 返回每一列的平均值? ? ? ? ? ? ? ? df.mean()

median? 返回每一列的中位数? ? ? ? ? ? ? ? df.median()

var? ? ? 返回每一列的方差? ? ? ? ? ? ? ? ? df.var()

std? ? ? 返回每一列的标准差? df.std()

isnull? 检查df中的空值，空值为True，否则为False,返回布尔型数组? df.isnull()

notnull? 检查df中的空值，非空值为True，否则为False,返回布尔型数组? df.notnull()

中位数又称中值，是指按顺序排列的一组数据中居于中间位置的数

方差用于度量单个随机变量的离散程序（不连续程度）

标准差是方差的算术平方根，反映数据集的离散程度

'''

3. 导入.xls或.xlsx文件

# pandas.read_excel(io,sheetname=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrow=None,na_values=None,keep_defalut_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,conver_float=True,mangle_dupe_cols=True,**kwds)

'''

io 字符串，xls或xlsx文件路径或类文件对象

sheet_name：None、字符串、整数、字符串列表或整数列表，默认值为0

? ? 字符串用于工作表名称；整数为索引，表示工作表位置

? ? 字符串列表或整数列表用于请求多个工作表，为None时则获取所有的工作表

? ? sheet_name = 0 第一个Sheet页中的数据作为DataFrame对象

? ? sheet_name = 1 第二个Sheet页中的数据作为DataFrame对象

? ? sheet_name = 'Sheet1' 名为Sheet1的Sheet页中的数据作为DataFrame对象

? ? sheet_name = [0,1,'Sheet3'] 第一个，第二个和名为Sheet3的Sheet页中的数据作为DataFrame对象

header:指定作为列名的行，默认值为0，即取第一行的值为列名。或数据不包含列名，则为header=None

names:默认值为None，要使用的列名列表

index_col：指定列为索引列，默认值为None，索引0是DataFrame对象的行标签

usecols：int、list或字符串，默认值为None

? ? 如为None，则解析所有列

? ? 如为int，则解析最后一列

? ? 如为list列表，则解析列号和列表的列

? ? 如为字符串，则表示以逗号分隔的Excel列字母和列范围列表

squeeze：布尔值，默认为False，如果解析的数据只包含一列，则返回一个Series

dtype:列的数据类型名称为字典，默认值为None

skiprows:省略指定行数的数据，从第一行开始

skipfooter：省略指定行数的数据，从尾部数的行开始

4.导入指定Sheet页的数据

# sheet_name=0表示第一个sheet页的数据，以此类推，如果不指定，则导入第一页

5.指定行索引导入Excel数据

'''

Empty DataFrame

Columns: []

Index: [1, 3, 5]

'''

# 导入第一列数据

'''

Empty DataFrame

Columns: []

Index: [1, 3, 5]

'''

python班级数据分析(python数据分析怎么做)

python数据分析的一般步骤是什么

下面是用python进行数据分析的一般步骤：

一：数据抽取

从外部源数据中获取数据

保存为各种格式的文件、数据库等

使用Scrapy爬虫等技术

二：数据加载

从数据库、文件中提取数据，变成DataFrame对象

pandas库的文件读取方法

三：数据处理

数据准备：

对DataFrame对象（多个）进行组装、合并等操作

pandas库的操作

数据转化：

类型转化、分类（面元等）、异常值检测、过滤等

pandas库的操作

数据聚合：

分组（分类）、函数处理、合并成新的对象

pandas库的操作

四：数据可视化

将pandas的数据结构转化为图表的形式

matplotlib库

五：预测模型的创建和评估

数据挖掘的各种算法：

关联规则挖掘、回归分析、聚类、分类、时序挖掘、序列模式挖掘等

六：部署（得出结果）

从模型和评估中获得知识

知识的表示形式：规则、决策树、知识基、网络权值

更多技术请关注python视频教程。

python如何做数据分析

用Python做数据分析，大致流程如下：

1、数据获取

可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包，比如pymssql、pymysql、cx_Oracle等。

2、数据存储

企业当中的数据存储，通过通过数据库如Mysql来存储与管理，对于非结构化数据的存储可以使用MongoDB等。对于使用Python进行网络抓取的数据，我们也可以使用pymysql包快速地将其存储到Mysql中去。

3、数据预处理/数据清洗

大多数情况下，原始数据是存在格式不一致，存在异常值、缺失值等问题的，而不同项目数据预处理步骤的方法也不一样。Python做数据清洗，可以使用Numpy和Pandas这两个工具库。

4、数据建模与分析

常见的数据挖掘模型有：分类、聚类、回归等，这些常见的算法模型，Python也有Scikit-learn和Tensorflow工具库来支持。

5、数据可视化分析

在数据可视化方面，Python有Matplotlib、Seaborn、Pyecharts等工具库可用。

怎样用 Python 进行数据分析？

做数据分析，首先你要知道有哪些数据分析的方法，然后才是用Python去调用这些方法

那Python有哪些库类是能做数据分析的，很多，pandas，sklearn等等

所以你首先要装一个anaconda套件，它包含了几乎所有的Python数据分析工具，

之后再学怎么分析。

标签: python班级数据分析

“python班级数据分析(python数据分析怎么做)”由考试资料网(www.kszl.net)整理！仅供学习参考！具体以权威部门公布的内容为准！

------分隔线----------------------------

上一篇：二建社保在哪里就在哪里考试吗(二建考试社保问题)
下一篇：一品月坊无限鲜花破解版(一品月坊最新攻略 8年)