实战分享:如何用 Bright Data + RPA 打造一个自动化电商情报系统
1. 背景
在电商平台商品信息呈指数级增长的今天,消费者面临着 "信息过载" 与 "选择困难" 的双重挑战。据艾瑞咨询 2024 年报告显示,消费者平均单次网购需对比 5.2 个平台的 12.7 件商品,耗时长达 45 分钟,仔细想想,平时购买商品时确实是这个样子的。
我们平时在购买商品的时候,肯定是想要一个性价比,用实惠的价格购买到质量相对还不错的商品,那么此时就需要对比相同类型的商品,但是如果只靠自己去在众多繁杂的商品信息中去查找到更合适的,那肯定是比较耗费时间的,所以说有没有一种更高效的方式来帮助我们去对比商品,如果说这个操作是自动化完成的那就更好了。
刚好,最近我就发掘出了使用 Bright Data + 影刀 RPA 的方式,来开发出一个自动比价机器人,来完成这个任务,那么以后再购买商品时,只需要输入想要购买商品的名称,就可以列举出购物网站上所有关于此商品的价格和其他信息,并且给出更好的推荐,极大地方便了我们的购买需求。
2. Bright Data 是什么
亮数据是一个基于云的数据收集平台,它可以帮助企业从数百万个网站中检索和分析结构化和非结构化数据。这个工具主要面向营销、电子商务、社交媒体、搜索引擎优化和产品开发团队。亮数据的作用在于为全球的企业和研究人员赋能,使他们能够获得竞争优势,推动业务决策、研究工作和市场分析。作为全球领先的云数据收集平台,Bright Data 已为超 2 万家企业提供数据服务,其优势显著且多元,已然成为数据采集领域的中流砥柱。
进入网站之后可以看到,亮数据提供了丰富的产品和强大的功能,并且还提供了专家咨询服务,遇到问题时可以随时咨询交流:
首先就是各种代理服务,拥有来自 195 个国家 / 地区的 7200 万 + 住宅 IP、50 万 + 数据中心 IP 及移动代理,如此海量的 IP 资源,构建起了一个全球范围内无死角的数据采集网络。无论是深耕国内电商平台,还是拓展跨境业务,其广泛的 IP 覆盖都能确保顺畅的数据获取,轻松突破地域限制,让企业与消费者得以洞察全球市场动态。
当然,我们这次开发自动比价机器人最重要的技术支持就是亮数据
并且 Bright Data 的数据采集工具支持从各类网站自动提取结构化数据,用户无需编写代码即可创建数据抓取任务。该工具适用于市场调研、价格监控、竞争分析等多种应用场景。
3. Bright Data 强大的数据采集能力
Bright Data 摒弃了传统数据采集对复杂编程技能的依赖,通过简洁直观的可视化界面,用户只需简单操作,即可轻松创建爬虫任务。平台内置了许多平台的专属模板,用户无需花费大量时间精力去研究每个平台的页面结构与数据规则,只需一键选用对应模板,输入关键信息,如商品关键词、品牌名称等,便能快速启动数据采集流程,极大降低了数据采集的技术门槛,让非技术专业背景的业务人员也能独立完成数据采集工作,释放了企业的生产力。
并且采集到的数据会自动转化为 JSON、CSV 等通用的结构化格式,这种标准化的输出形式能够与市面上绝大多数数据分析工具实现无缝对接。无需繁琐的数据清洗与格式转换工作,用户采集完成后即可将数据直接导入 Excel、SQL 数据库、Python 数据分析库等工具中,进行深度的数据挖掘与分析,大大提升了数据处理的效率,让数据价值能够在最短时间内得以释放。如果你想现在就体验的话可以直接点击亮数据官网:web scraper - Bright Data,注册之后平台也会给账号上自动充值 2$ 来体验开发。
4. 数据采集过程
下面来介绍一下如何调用 Bright Data 来直接爬取目标网站的数据
4.1. 正常流程
首先来到爬虫市场来搜索亚马逊的网站,
点击之后进入之后,就会看到这里提供了各种与亚马逊产品和评论数据收集相关的功能模块,包括通过 URL,畅销商品类别 URL,特定关键词,品牌 URL 等,这次就选择通过关键词来搜索,然后从爬取到的数据中来进行商品的价格分析
点击之后选择爬虫 API 服务,
然后点击 API 请求构建器,输入 API 键,添加细节这里选择 JSON,
然后打开 Deliver results to external stroage 按钮,便于后续存储结果,之后默认会选上 AmazonS3,然后这里的桶的话就随便起个名字就可以,但是不能空着
调用语言选择 Python,然后就可以去调用了
可以选择手动调用,也就是复制好代码在本地 IDE 中运行,当然,我们这次开发的是自动化的机器人,那么本次开发就选择影刀 RPA 来实现自动化调用,只需要输入要查询的商品名,就能调用亮数据的爬取 API 进行商品的爬取操作
调用之后就可以去亮数据网站下载对应的信息,这里选择 CSV 格式下载,下载好之后就可以丢给 AI 来进行数据分析
下载好之后就能看到这些爬取好的数据了,然后就可以使用AI工具对这些数据进行分析,分析之后就可以给用户推荐商品
4.2. 自动化集成
目前市面上也有很多工作流自动化平台,比如 n8n,👉 Powerful Workflow Automation Software & Tools - n8n
可以直接通过 docker 来进行部署
docker run -it --rm --name n8n -p 5678:5678 docker.n8n.io/n8nio/n8n
然后访问编辑器 http://localhost:5678/ 就可以进行自动化逻辑的开发
4.2.1. 快速上手
本次的自动化机器人的开发我选择的是影刀 RPA 来实现的,上面的所有流程都可以通过影刀 RPA 来实现自动化执行,同样的,也是只需要简单的拖拽就可以实现自动化功能,有需要的小伙伴也可以去下载使用
在网页自动化一栏就可以实现网页的一系列点击操作
然后再添加点击元素就可以模拟鼠标的点击操作,通过这个来配置所需要点击的按钮或者区域
然后就是输入功能,把填写输入框拖进来,然后捕获需要输入信息的区域,并输入要输入的内容,比如用户名和密码这种
通过上述逻辑就可以实现本次数据采集的大部分点击和输入功能,那么也就剩下 API 的调用了
然后再来看如何使用影刀 RPA 来调用 Bright Data 的爬虫 api,在左侧操作栏有一个魔法指令,可以直接把代码给影刀 AI,让它直接调用,解析之后也把代码中需要配置的部分通过指令的方式来进行输入,这时用户就可以来选择自己所需要查找的商品
调用之后就可以直接跳转到下载数据的界面了执行下载的操作了
4.2.2. 分析商品价格
之后就可以把下载好的文件来交给影刀来使用指令自动化分析,如果不知道具体指令的话,还是可以在魔法指令这里问 AI,它就会直接把所要执行的指令显示出来
指定好路径之后就可以运行指令了,来看一下最终分析的内容:
下面这些 png 图片就是根据数据来制作的统计图
打开result.html也能直接看到此次分析的全部内容
这些数据的话还是有点多的,比较有专业性,用户的话肯定也是需要直接知道推荐的是哪种商品,这里可以使用小浣熊 AI 工具来进行分析的
比较推荐的是它可以根据分析到的数据来绘制条形统计图,让用户可以更加直观地看出商品的差异,用户可以根据自己的不同需求来选择,包括需要分析的内容都可以根据用户的提示词来指定
当然,使用 AI 分析的这一步也可以集成到自动化机器人这里
通过上述步骤,一款简单实用的自动化比价机器人就开发好了,点击运行,就会自动把上面的流程全部走一遍,不需要用户再去做这些繁琐的工作就能直接获取结果
5. 总结
通过实际体验不难发现无需手动切换平台比价,无需人工整理 Excel 数据,用户只需在影刀 RPA 界面输入商品名称,系统便会自动触发 Bright Data 的全球数据采集网络,突破电商反爬机制,在 10 分钟内将亚马逊等多平台的商品价格、销量、评价等数据结构化抓取并存储至云端。
可以感受到,Bright Data(亮数据)以零代码门槛、全自动化流程、秒级数据响应的三重核心,无需掌握复杂编程技术,无需搭建繁琐爬虫架构,用户只需在 Bright Data 平台完成简单的可视化配置(如选定目标平台、输入商品关键词),即可一键触发覆盖全球电商的分布式数据采集网络。
如果你也想去开发体验这个高效的比价机器人的话,
比较香的是,现在亮数据平台注册之后,会为新手送上 2$ 来助力测试使用,感兴趣的小伙伴也可以点击这个连接一键直达,亮数据官网:web scraper - Bright Data