带你从数据小白成长为数据分析师
数据有多种获取途径,下面是常用的几种获取数据的方式,最终数据以DataFrame格式保存
数据清洗主要使用pandas进行增查删改的操作,有时也需要对文本进行清洗和提取
也常用sklearn中的Preprocessing方法清洗数据
增查删改内容目录
jupyter notebook显示宽度设置
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:85% !important; }</style>"))
pd.set_option():显示多行多列 调整精度
# 显示所有列
pd.set_option('display.max_columns', None)
pd.set_option('display.max_columns', 5) #最多显示5列
# 显示所有行
pd.set_option('display.max_rows', None)
pd.set_option('display.max_rows', 10)#最多显示10行
#显示小数位数
pd.set_option('display.float_format',lambda x: '%.2f'%x) #两位
#显示宽度
pd.set_option('display.width', 100)
#
import warnings
warnings.filterwarnings('ignore') # 关闭运行时的警告
np.set_printoptions(linewidth=100, suppress=True) # 打印numpy时设置显示宽度,并且不用科学计数法显示
pd.set_option('display.width', 100) # pandas设置显示宽度
pd.set_option('precision', 1) # 设置显示数值的精度
在数据透视方面,excel的功能比python完善,如果条件允许,数据透视在excel里进行更方便
但有时候需要在python里完成透视工作,所有完善了一些基础透视功能