Python，Node.js 哪个比较适合写爬虫

如题所述

推荐答案 2016-12-20

温馨提示：答案为网友推荐，仅供参考

当前网址：http://00.wendadaohang.com/zd/DnZrrrZeTDBBZeI0r0I.html

其他回答

第1个回答 2021-07-30

NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。 Python：强烈建议，对以上问题都有较好支持。尤其是Scrapy框架值得作为第一选择。优点诸多：支持xpath；基于twisted，性能不错；有较好的调试工具；此种情况下，如果还需要做js动态内容的解析，casperjs就不适合了，只有基于诸如chrome V8引擎之类自己做js引擎。

第2个回答 2016-12-20

最好的爬虫语言是前嗅的ForeSpider爬虫脚本语言。是一门专门的爬虫脚本语言，而不是爬虫框架，可以用简单几行代码，实现非常强大的爬虫功能。
ForeSpider是可视化的通用性采集软件，同时内置了强大的爬虫脚本语言。如果有通过可视化采集不到的内容，都可以通过简单几行代码，实现强大的脚本采集。软件同时支持正则表达式操作，可以通过可视化、正则、脚本任意方式，实现对数据的清洗、规范。

对于一些高难度的网站，反爬虫措施比较多，可以使用ForeSpider内部自带的爬虫脚本语言系统，简单几行代码就可以采集到高难度的网站。比如国家自然基金会网站、全国企业信息公示系统等，最高难度的网站完全没有问题。
在通用性爬虫中，ForeSpider爬虫的采集速度和采集能力是最强的，支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等等技术的采集，采集效率在普通台式机上，可以达到500万条数据/每天。这样的采集速度是一般的通用性爬虫的8到10倍。
对于大量的网站采集需求而言，ForeSpider爬虫可以在规则模板固定之后，开启定时采集。支持数据多次清洗。
对于关键词搜索的需求而言，ForeSpider爬虫支持关键词搜索和数据挖掘功能，自带关键词库和数据挖掘字典，可以有效采集关键词相关的内容。
可以去下载免费版，免费版不限制采集功能。有详细的操作手册可以学习。

第3个回答 2016-12-17

看你更熟悉哪一个咯

相似回答

Python,Node.js 哪个比较适合写爬虫答：建议使用Python 1、NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。2、Python：强烈建议，对以上问题都有较好支持。尤其是Scrapy框架值得作为第一选择。优点诸多：支持xpath；基于twisted，性能不错；有较好的调试工具；此种情况下，如果还需要做js动态内容的解...

Python,Node.js 哪个比较适合写爬虫答：对数据库的操作能力上，Python有官方及第三方的连接库。另外，对于爬虫抓取的数据，存储在NoSQL型数据库个人认为更加合适。3.爬取效率确实脚本语言的运算速度不高，但是相对于特定网站反爬虫机制强度以及网络IO的速度，这几门语言的速度诧异都可以忽略不计，而在于开发者的水平。如果利用好发送网络请求的...

Python,Node.js 哪个比较适合写爬虫答：NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。Python：强烈建议，对以上问题都有较好支持。尤其是Scrapy框架值得作为第一选择。优点诸多：支持xpath；基于twisted，性能不错；有较好的调试工具；此种情况下，如果还需要做js动态内容的解析，casperjs就不适合了...

Python,Node.js 哪个比较适合写爬虫答：对我来说上面两个选择差不多是等价的，但主要我JS比较熟，现在选择Node平台会多一些。上规模的整站爬取：Python + Scrapy 如果说上面两个方案里DIY 的 spider是小米加步枪，那Scrapy简直就是重工加农炮，好用到不行，自定义爬取规则，http错误处理，XPath，RPC，Pipeline机制等等等。而且，由于Scrapy是...

大家正在搜

python 爬虫js python爬虫如何解析js python爬虫调用网页js nodejs爬虫 node 爬虫爬虫技术python 为什么爬虫都用python python为什么叫爬虫 python爬虫有什么用