零基础如何用好AI来爬取数据【附代码】

前言

AI编程群聊看不到不少圈友在实践AI爬虫跑完了手册两个实战之后,自己想尝试让AI写个程序跑个爬虫却总是遇到各种报错问题。详细查看了下,大部分都是没找到定位到元素的问题。

 

作为本期志愿者,我想做一个分享,如何借助AI来爬虫,而不是在Python基础语法当中迷茫找不到方向。我认为用好AI,是可以边学习Python语法边去实践爬虫和RPA的。

 

需求分析

首先,请使用 ChatGPT4o 或 ChatGPT4,尽量不要使用其他AI工具来提问代码,目前提问代码相关的问题,我个人觉得只有 GPT4 是最准确的。

 

接下来以爬虫B站视频标题来举例说明。

我们想要去爬一个网站数据,首先要了解这个网站,B站可以不用登录简单浏览。

 

如果我们想爬取B站AI相关视频前100条内容,那要如何做呢?

我们把PY程序想象为人就行了,我们自己看100数据是不是一直刷?B站的话,还需要翻页。

人:刷B站,点击翻页。PY程序:看代码,点击翻页。

其实是一样的,只是PY程序看的是代码而已,它看的速度也比我们快多了。

 

实战演示

接下来我以无Python编程基础的方式演示一下如何爬取B站标题数据:

第一步 打开B站搜索AI

5ae30ce8191fc7c6a73956721d75a60a__fallback_source=1&height=1280&mount_node_token=RIcodRBCooJoIhxDxBwcu4zxndh&mount_point=docx_image&policy=equal&width=1280

第二步 打开开发者模式

右键检查或打开F12,找到最左侧的这个选择元素的按钮(元素检查器),点击一下。然后鼠标移动到第一个视频的标题部分会有绿色背景显示,点击一下。这样我们就看到了相关的源码。有用过八爪鱼或后裔采集器的话,会感觉到这个步骤是类似的。所以也是说,无论用RPA/采集器其实底层原理都是一样的,编写selenium的代码可以理解为就是那个底层技术。

7484b16e1a27bd919218581d87836c8a__fallback_source=1&height=1280&mount_node_token=JvvXdkwaGohlzNxMuFVcbfnznUb&mount_point=docx_image&policy=equal&width=1280

第三步 复制源码

复制元素代码,这里我选择上面那个p进行复制?为什么?你看左边背景显示为视频列表部分,说明视频列表的数据都在这一块代码里面,我们复制这块代码就可以了。当然如果你复制整个页面代码也是可以的。(当然这里把代码直接截图也是可以的,待会发给GPT,只要把这部分代码截取下来就可以了。)

f39f03dfcb7f170ff08bd3c99c88e578__fallback_source=1&height=1280&mount_node_token=PVBFdPmFgowFVwx2aowcLBqtnub&mount_point=docx_image&policy=equal&width=1280

复制的方法:右键代码,复制,复制元素。

096c5e271cb427c3d58be5f8bd05cc60__fallback_source=1&height=1280&mount_node_token=V9wsdRlwDo6BJPxZdR6cKtKAnIe&mount_point=docx_image&policy=equal&width=1280

第四步 保存源码文件

本站资源仅供学习交流使用请勿商业运营,严禁从事违法,侵权等任何非法活动,否则后果自负!
© 版权声明
THE END
喜欢就支持一下吧
点赞69 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容