微信文章怎么采集?


那要看你要表达出什么心声 。说明什么事情或者是寻求什么样的帮助 。或者是要达成什么样的目的 。以写景 。写情 。或是写人来表达自己的內心情感 。
其他观点:
可以使用清博指数进行抓取 。除了可以采集到微信公众号的文章之外 。还能采集到标题、文章序号、原文链接、阅读数、点赞数、发布时间等数据 。具体步骤如下:
1.搜集需要采集的公众号的名单
2.把这些公众号加入清博指数的自定义榜单
3.清博指数每天会自动采集相关的数据 。可以直接导出
注:如果没有查询到相关的公众号的话 。需要先进行入库的操作 。
其他观点:
可以使用ForeSpider数据采集系统进行采集 。具体教程如下所示:
一.场景简介
1.场景描述:通过搜狗采集微信公众号的文章
2.入口网址:https://weixin.sogou.com/weixin?type=1&s_from=input&query=%E5%89%8D%E5%97%85&ie=utf8&_sug_=n&_sug_type_=
3.采集内容:
采集搜狗微信平台中 。关键词搜索出来的微信公众号文章的标题、正文、作者、公众号名称等 。

微信文章怎么采集?

文章插图
二.思路分析
|配置思路概览
微信文章怎么采集?

文章插图
|配置步骤
1. 新建采集任务
选择【采集配置】 。点击任务列表右上方【+】号可新建采集任务 。将采集入口地址填写在【采集地址】框中 。【任务名称】自定义即可 。点击下一步 。
微信文章怎么采集?

文章插图
继续勾选普通翻页 。然后点击完成 。创建成功 。
微信文章怎么采集?

文章插图
2.关键词配置
①在入口页搜索不同关键词 。发现不同关键词搜索结果的链接 。只更换了图中红框部分 。而红框部分正是经过转码后的关键词 。于是得出关键词链接的拼接规则为:
https://weixin.sogou.com/weixin?type=2&s_from=input&query=关键词
微信文章怎么采集?

文章插图
②得到关键词链接拼接规则后 。开始配置关键词搜索:
点击屏幕右下角【高级配置】 。将采集地址填写到【请求地址】中 。点击【+】添加一个参数 。名称可以自定义 。此项配置是用于后期脚本能将关键词从关键词列表中取出 。配置完成点击【确定】即可 。
微信文章怎么采集?

文章插图
将参数类型选择为检索关键词 。点击保存 。
微信文章怎么采集?

文章插图
③由于本模板是以关键词搜索为入口 。所以在【模板抽取配置】选择频道(即任务名称) 。选择【脚本窗口】 。将关键词搜索配置在频道处即可 。
微信文章怎么采集?

文章插图
④具体配置脚本如下:
微信文章怎么采集?

文章插图
添加一个或多个关键词 。并保存 。如下图所示 。(多个关键词用英文;隔开)
微信文章怎么采集?

文章插图
⑤效果预览:
在【关键词列表】中填写关键词 。点击【保存】 。点击【采集预览】 。即可看到配置效果 。
微信文章怎么采集?

文章插图
如果采集预览异常 。可打开前嗅 。咨询技术支持 。
3.翻页配置
关键词配置完成 。下一步是获取关键词搜索结果中的全部翻页链接 。
①同样选择【脚本窗口】 。配置翻页脚本 。
微信文章怎么采集?

文章插图
②对关键词搜索出的网页翻页 。观察网页地址的变化 。
https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8 第二页
https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=3&ie=utf8 第三页
发现翻页链接是在原地址中增加了“&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分 。随着页码的改变 。仅有page参数的值在变化 。page为页码的配置参数 。其它不变部分 。直接拼接在链接中即可 。
③具体配置脚本如下:
微信文章怎么采集?

推荐阅读