利用Huginn抓取任意网站RSS和微信公众号更新-打造一站式信息阅读平台

首发：2017年8月30日
有问题请联系Qi 更新于： 2018年08月28日 08:33
by Qi
115

Huginn其实非常适合像我这样的RSS阅读重度“用户”。很多RSS阅读器因为赚不到钱逐渐被公司所抛弃——商人嘛，无利可图自然不可持久。同时，一些新闻资讯类的网站也讨厌RSS，因为RSS用户对于他们来说不会带来流量——没有流量，自然没有收入。

目前来看，RSS的地位非常地“尴尬”，它在RSS开发者和RSS内容输出者面前非常不受欢迎，甚至有极端者“恨不得RSS已死”。幸好，RSS还有一大批忠实用户，一直支撑着RSS的发展，即便是移动APP的出现，也未能直接将RSS判定为“死亡”。

另外，对于微信公众号重度“患者”Huginn也有很好的“药方”。利用搜狐微信平台，Huginn可以帮助我们定时抓取微信公众号的文章更新，然后生成RSS，你可以将所有的公众号文章聚合到一个平台。Huginn可以为你抓取RSS全文，从此解放你的双手。

Huginn还可以监控天气预报，如果明天下雨，则给你发送提醒；监控某款商品的网页，一旦降价，通知你；监控某款商品的网页，一旦降价，通知你……官方还有非常多的应用实例，网友们也写出了非常多的Huginn脚本，帮助你打造一个只属于自己的IFTTT服务。

有人说，在某种程度上讲，Huginn比IFTTT还强大，因为Huginn可以与Slack、Pushbullet等进行整合，这样无论在身处何地何时，你都可以通过手机接收到Huginn给抓取的网站RSS更新、微信公众号文章、天气提醒、行程安排、待办事项、新闻动态……

更多的建站程序及站长工具，你还可以看看：

PS：2017年10月31日更新，感觉Huginn麻烦的朋友，可以试试这一款免费的在线抓取全文RSS工具：生成和订阅任意网站RSS工具-实现RSS全文,邮箱和手机APP提醒。

一、Huginn安装部署方法

Huginn安装部署官网推荐有两种方式，一种是将Huginn安装部署在自己的VPS主机上，过程比较繁琐，但是成功率还是非常高，这主要归功于Huginn官网的教程已经做到了傻瓜式。另一种则是部署在Heroku平台，免费的，适合没有自己的服务器的朋友。

1.1 VPS部署Huginn

Huginn部署VPS主机支持Ubuntu (16.04, 14.04 and 12.04)和Debian (Jessie and Wheezy)，你只要按照官网的教程一步一步地复制执行命令，基本上可以成功了：Huginn在Debian/Ubuntu手动安装教程-抓取全文RSS和微信公众号开源软件。

1.2 Heroku部署Huginn

需要的东西

Codeanywhere 账号：https://codeanywhere.com/
Heroku 账号：http://herokuapp.com/

部署步骤

登陆 Huginn Github 主页的 Deployment 部分：https://github.com/huginn/huginn#deployment，找到 Heroku 的按钮。然后点击，就会跳转到你的 Heroku 了。

点完按钮之后会跳转到你的 Heroku 界面去起个名字。直接拉到最后点 Deploy 的按钮，之后它就会开始 build 了。

创建好了后，点击 View 就直接跳转到已经建立好的应用了。Manage App 会跳转到 Heroku 管理界面。点击 View后可以看到 Huginn 很人性化的把步骤贴出来了。由于我们用的是自动安装，所以没有创建管理员用户，也有一些东西需要配置。（可以看到已经可以访问域名了）

现在我们对照着 Huginn 的说明来做。登陆 Codeanywhere，点击右上角的 Editor。会进入一个选择界面，如截图。

第一次的话点完 Create 会让你验证邮箱，验证完邮箱对着上图再做一遍就可以了。我们首先要下载新版本的 ruby 环境。

打开huginn.sh：https://github.com/tesths/tesths.github.com/blob/master/images/huginn/huginn.sh，复制到 Codeanywhere 的文件编辑器里。然后点击右上角保存。保存到根目录下，文件名保存为 huginn.sh。

然后在你的 Heroku 界面找到下图的地方，在以下地方将code-huginn换成你自己的名字。（点击放大）

然后执行脚本 huginn.sh，命令：bash huginn.sh。执行完毕之后，进行如下操作即可：

先进入 cd code-huginn/（这里的 code-huginn 输入你刚替换的名字就好）。
在命令行登陆你的 heroku ，就是在命令行输入 heroku login。
之后执行 heroku git:remote -a code-huginn。
最后执行 bin/setup_heroku。剩下的就是开始自动配置了。

heroku空间几点说明：

heroku免费账户的网站在30分钟内无人访问后会自动关闭（休眠），可以使用网站监控服务来防止其休眠，例如：uptimerobot：https://uptimerobot.com。
heroku免费用户的所有app运行总时长为每个月550小时，也就是说你的APP无法保证30X24X7小时全天候运行，建议让网站每天只运行18小时。当然添加信用卡之后，会再赠送450小时。
heroku免费账户只有5M的 Postgres 数据库，只允许在数据库中记录10000行，因此，作者建议设置heroku config:set AGENT_LOG_LENGTH=20。

Huginn安装在heroku的过程中默认使用的是SendGrid的邮箱服务器，但是heroku非信用卡用户无法使用SendGrid的邮箱服务器，建议添加其它邮箱服务器，比如，gmail邮箱服务器，具体设置如下：

heroku config:set SMTP_DOMAIN=google.com
heroku config:set SMTP_USER_NAME=<你的gmail邮箱地址>
heroku config:set SMTP_PASSWORD=<邮箱密码>
heroku config:set SMTP_SERVER=smtp.gmail.com
heroku config:set EMAIL_FROM_ADDRESS=<你的gmail邮箱地址>

二、Huginn抓取任意网站RSS并输出全文

2.1 抓取文章RSS

进入到Huginn，点击新建Agent，类型选择Website Agent，名字随便取，其它的保持默认。

填写选项内容。在选项中就是我们填写抓取规则的地方了。

url填入需要解析的页面，例如：wzfou.com
type表示格式，可以有html, xml, json, text多种格式
mode表示信息的输出处理方式，“on_change”表示仅输出下面的内容，”merge”表示新内容和输入的agent内容合并。
extract是我们要提取的信息。

extract内容。主要就是标题、链接、内容和时间等，我们只需要填写相关内容的Xpath路径，另外对于链接的话加入值：value: @href，标题加入：value: normalize-space(.)。如下图：（点击放大）

关于获取网页的Xpath的方法，直接使用Chrome，右击我们要获取的内容，然后选择“审查元素”，再到控制面板右击，选择复制Xpath。例如wzfou.com的最新文章的url的Xpath是：//*[@id=”cat_all”]/div/div/div[2]/div/h2/span/a。

另外，由于我们获取到的Xpath往往是某一个具体的元素的，想要匹配所有的符合要求的元素，我们还可以借助Chrome的Xpath插件：XPath Helper。例如我们获取一般是：//*[@id=”cat_all”]/div[1]/div/div[2]/div/h2/span/a。通过插件我们测试出去年第一个divr的1，也就是变成我上面的：//*[@id=”cat_all”]/div/div/div[2]/div/h2/span/a。于就匹配了所有的最新文章链接地址了。

其它的标题、内容、时间等都可以参考上面的方法获取到。

预览抓取结果。点击“Dry Run”，你就可以预览抓取结果了。注意到“事件”中看到抓取了结果，就表示该Website Agent设置成功了。

2.2 获取RSS全文

还是点击新建Agent，类型选择Website Agent，来源选择你刚刚创建的Website Agent。

然后在选项设置处，URL填写：{{url}}，即抓取你刚刚获取RSS的链接地址，mode选择“merge”，xpath就是本文的Xpath，value填入“.”，即原样输出全文并合并原先的输出。

2.3 生成RSS地址

点击新建Agent，类型选择Data Output Agent，Sources中填入第二步的Agent名称。

在选项中填入你的RSS的标题、描述、链接等信息，同时在Item中填写标题、描述、链接等，即输出RSS全文的标题、内容与链接地址等等。

最后，你就可以看到RSS订阅地址已经生成的。

复制该RSS订阅地址到RSS阅读器，就可以订阅文章更新了。

如果你没有RSS输出，请检查以下三点：

WebsiteAgent接受到的Event，是否有url这个字段？
如果event里url字段，用 url_from_event 就行了
dry run 时会提示你输入Event作为输入，这是要输入一个带url的event，否则当然没输出了。

三、Huginn抓取微信公众号并输出RSS

抓取微信公众号的文章更新，首先需要一个网页。这里我们需要利用的就是搜索微信平台了，例如挖站否的微信是这样的：

原理还是和上面一样的，创建Website Agent，去抓取搜狐微信页面，通过Xpath获得“最近文章”内容，然后得到最近文章的URL，继续抓取，最终获得微信公众号文章全文。

这里有一个抓取微信公众号生成RSS输出的scenarios，你可以直接下载导入：https://www.ucblog.net/wzfou/weixin.json。

导入完成后，你只需要修改“从搜狗微信搜索公众号，获取最新文章标题”和“获取公众号最新文章的链接地址”两个Agent的URL，换成你想要订阅的微信公众号URL即可。

最后，确保所有的Agent正常运行。

然后，你就可以使用RSS阅读器订阅微信公众号更新了。

四、Huginn一站式信息阅读

PC电脑端。自然是用RSS阅读器了，不管你是用RSS订阅软件，还是使用RSS在线订阅平台，你只要有一个RSS订阅源，你可以享受在任意电脑上查看自己的RSS信息了。国内的可用一览（目前有 100 个订阅数的限制），国外用Inoreader（无限制但有广告）。

手机移动端。手机上可以安装RSS阅读器的APP，但是更强大的是Huginn可以结合IFTTT、Pushbullet、Slack等将图片、超链接、文件、文字等内容发到你自己的手机上，或者直接发到你的微信、QQ、邮箱等。

五、总结

Huginn可以订阅任意你想要订阅的网站与平台，例如微信公众号、简书、知乎、博客、图虫、Lofter……，只要有网页同时生成了CSS，你就可以派出你的“Agent”去把他们抓回来，然后将他们“分门别类”，任意处置了。

看完此文的朋友，一定知道Huginn的门槛就在于环境的部署以及Website Agent规则的制定。虽然说Huginn有scenarios可供导入导出，但是目前为止还没有一个像油猴那样大规模的scenarios库，所以Huginn普及是非常困难的。

目前，大家可以在这里找到几个可供使用的脚本库：http://huginnio.herokuapp.com/scenarios。另外，Heroku部署Huginn也不是长久之计，一是Heroku基本上打不开，二来免费服务还不能运行24小时，不差钱的朋友可以购买一个VPS主机部署Huginn。这是我用过的VPS：VPS主机排行榜单。