Pytorch与深度学习-01.预处理数据类型

Pytorch是Facebook开发的一套基于动态图计算的深度学习框架。静态图计算指先定义后运行,先定义好计算网络,再多次运行。动态图计算是在运行过程中定义的。可以多次定义多次运行。方便修改。阅读本系列文章须先自行了解机器学习、深度学习和Python等知识及操作。

在进行模型训练前,要对采集到的数据进行预处理。数据按其表现形式可分为高维数据、图像数据和文件数据。

高维数据

所谓高维数据,指的是有多个特征值的数据。比如股票行情数据,如果用到一个股票的日内开盘价、最高价、最低价和收盘价。一天就包含有四个特征值。被预测变量如果是连续的数值,那这就是个数值回归计算问题;如果是离散的,那它就是分类问题。在建立模型时,回归问题的数据一般用浮点数来表示;而分类问题的数据一般用无符号整型数表示。

图像数据

图像文件一般是二进制文件格式存储,我们读取它的信息,处理成灰度信息(x,x,x),再将每个像素的x值规定在0~1之间。在N*N的数组中保存x的值(x的范围在0~1之间)

文本数据

文本数据多为txt格式文件,要进行分析,是不能直接使用。必须将文本信息向量化。文本数据向量化,一般是(Lable:word)标签对应字词。标签可以是字词出现的频率,代表城市,代表姓名,代表食物等等。总之可根据要分析的信息来设置标签的类型。

Pytorch与深度学习-01.预处理数据类型
滚动到顶部