大数据爬取分析数据，需要搭建什么样的环境和掌握什么样的知识？

补充:爬取分析的过程可以详细说明一下吗？以Linux为例

举报该问题

推荐答案 2019-08-13

首先爬取大数据现在一般都是用python，所以你先要在linux上搭python的环境，最好是3.x的版本。
然后Python有很多爬虫的框架，比较好用，比如scrapy。但是框架有了之后还要有一些其他的知识，比如正则表达式，因为怕下来的数据需要用正则去解析。
解析完之后要对数据清洗，这个工作python的pandas基本都能完成。
清洗完之后要入库，如果数据量不是太大的话，传统的数据库mysql什么的就可以了，如果数据量很大，还要搭Hadoop，这个就有点麻烦了，还要用sqoop。
基本流程就是这样，如果有疑问，可以在讨论。追问

用虚拟机安装镜像最小安装可以吗

温馨提示：答案为网友推荐，仅供参考

当前网址：http://00.wendadaohang.com/zd/DIjn0rIDneDrnDIjIZT.html

相似回答

大家正在搜