Welcome to OStack Knowledge Sharing Community for programmer and developer-Open, Learning and Share
Welcome To Ask or Share your Answers For Others

Categories

0 votes
3.1k views
in Technique[技术] by (71.8m points)

海量数据的处理过程

一般几千万的那种数据 为啥经过大数据处理然后才到算法机器学习处理呢?


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
Welcome To Ask or Share your Answers For Others

1 Answer

0 votes
by (71.8m points)

你这个问题有点模糊,机器学习就是大数据处理的一个环节。
我猜你说的大数据处理是数据预处理。
模型训练前要先进行数据清洗和特征工程。
几千万的数据,必然包含大量的数据缺失、错误、重复,必须进行删除、填充等工作进行纠正。否者混乱的数据只能训练处混乱的模型。
然后你要进行降维和特征提取,不然几千万的数据,计算量相当大,不先降维一般机器根本吃不消,不做特征提取效果也不会好。


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
Welcome to OStack Knowledge Sharing Community for programmer and developer-Open, Learning and Share
Click Here to Ask a Question

...