爬虫数据分析案例-评论

如题所述

举报该问题

其他回答

第1个回答 2022-07-04

前段时间微博上吴某和都某的时间闹得沸沸扬扬，着实让大家吃了不少瓜。Peter从网上获取到了一些用户的评论数据作为数据分析，看看微博用户都是怎么看待这件事情的。至于事情后面怎么发展，等待法律的公平公正与公开，本文仅作为数据呈现和分析使用。

本文中的数据是如何获取到的？

微博评论的数据ajax动态加载的，也就是在地址栏中的URL不变的情况返回不同的数据，但是实际发送请求的URL地址肯定是变化的，在谷歌浏览器中加载了4次，生成了不同的URL地址：

main_url是主评论的url地址，其他的URL地址是明显不同的；url2、url3、url4的差别仅在于max_id的不同。几经周折，终于找到了关键：原来main_url地址下返回的数据中有下页（第二页）max_id的信息：

同样的操作，第二页返回的max_id也是对应到第三页的URL地址中max_id的值。

⚠️总结： 通过前一页返回的数据中max_id的值作为下页url地址中max_id的值 。

给主页main_url发送请求获取到数据，找到我们需要爬取的字段信息（返回数据转成json文件的样子）：

再看看一个用户的数据信息：

本文中爬取的字段数据：

1、用户id

2、用户评论时间：comment_time

3、用户微博注册时间：register_time

4、评论内容：comment

5、评论点赞数：comment_like

6、评论回复人数：comment_reply

7、用户性别：gender

8、用户城市：city

通过pandas库将数据读取进来，我们查看前5条数据：

数据探索部分包含：

对爬取到的数据进行预处理：

对时间的处理，使用的是datetime库，开头已经导入了并缩写成dt。爬取到的数据使用的是 格林威治标准时间 ，做如下转化：

主要是将表情符处理掉：

将数据中的f变成女，m变成男，更加直观容易理解

用户画像主要从不同的维度来分析用户在评论中的情况，包含：性别、城市、微博年龄、评论点赞数和回复数等

根据性格对用户进行分组统计：

虽然主评论只有1000+，但是从结果中可以看到： 吴某某的粉丝还是以女性为主，远高于男性

主要是想知道哪些城市对吴某某的关注度较高。为了方便，我们统一取用户的省份信息：

从条形图中可以看到：

表示的是从用户注册到评论该条微博的时间间隔

用户年龄小结：

主要是想查看哪些微博评论的点赞数靠前

Peter当时爬取的数据是这条评论点赞数最多：滚！！！

多么的简单粗暴！

从结果中我们看到，还是这条评论：滚！

从不同年龄用户的点赞数和回复数中观察到：

使用jieba分词来绘制用户评论的词云图：

绘制全部评论词云图：

我们截图前50个高频词云进行绘图

从全部词云和Top50词云图中观察到：

再次郑重声明：本文仅做数据学习和分析展示，事情的后续结果如何，我们相信法律会有一个公平公正公开的结论🍉

第2个回答 2023-08-02

八爪鱼采集器可以帮助您采集电商平台的评论数据，并进行数据分析。您可以使用八爪鱼采集器内置的京东、淘宝、天猫评论采集模板，或者根据自定义教程和实操采集京东评论的教程来配置任务。八爪鱼采集器覆盖全球主流电商平台数据，涵盖90%以上数据类型及字段，可以帮助您进行价格监控、电商选品、竞品分析、消费者洞察等。如果您需要大量数据，请联系客服进行数据服务。了解更多八爪鱼采集器的功能与合作案例，请前往官网了解更多详情。

相似回答

爬虫数据分析案例-评论答：八爪鱼采集器可以帮助您采集电商平台的评论数据，并进行数据分析。您可以使用八爪鱼采集器内置的京东、淘宝、天猫评论采集模板，或者根据自定义教程和实操采集京东评论的教程来配置任务。八爪鱼采集器覆盖全球主流电商平台数据，涵盖90%以上数据类型及字段，可以帮助您进行价格监控、电商选品、竞品分析、消费者洞...

Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更多」爬取_百度知...答：在爬取数据时，如果没有建立「滚动至底部」的选择器，让卡顿的页面也完全呈现出来，则会造成程序找不到「查看更多」的情况，导致大量的数据没有被爬取。建立「滚动至底部」选择器 Id : scroll Type : Element scroll down Select : 点击第1条和第2条评论最外围的方形元素点击 Done se...

爬虫初学者必备的实用技巧与案例分析——爬天都峰课堂笔记答：7. 案例分析：以爬取豆瓣电影TOP250为例，以下是爬虫操作的步骤：a. 分析目标网站的结构和数据，确定目标数据的XPath路径或CSS选择器。b. 使用Python和BeautifulSoup编写爬虫程序，提取目标数据。c. 将获取的数据存储到MySQL数据库中。d. 使用Python和Matplotlib对数据进行可视化处理，生成电影评分分布图和电...

爬虫初学者必备的实用技巧与案例分析——爬天都峰课堂笔记答：六、案例分析：爬取豆瓣电影TOP250 下面以爬取豆瓣电影TOP250为例，介绍爬虫的具体操作步骤。1.分析目标网站的结构和数据，找到目标数据的XPath路径或CSS选择器。2.使用Python和BeautifulSoup构建爬虫程序，获取目标数据。3.将获取到的数据存储到MySQL数据库中。4.使用Python和Matplotlib进行数据可视化，生成...

大家正在搜

python爬虫数据分析案例爬虫数据分析实例爬虫爬取数据并分析基于python爬虫数据分析论文爬虫与数据分析爬虫数据分析项目 python数据分析和爬虫的关系数据分析一定要学爬虫吗 python网络爬虫和数据分析