生成和订阅任意网站RSS工具-实现RSS全文,邮箱和手机APP提醒

上次挖站否分享了利用Huginn抓取任意网站RSS和微信公众号更新,不少的朋友留言说Huginn配置太难,并且还没有现成的scenarios库,很多的抓取规则都需要自己摸索和自定义,难度比较大。最重要的是搭建Huginn还需要自己支付一笔主机费用。

今天就分享的Feed43就是相当于Huginn的RSS抓取订阅功能了。Huginn功能强大,如果你只是想用用Huginn的RSS订阅,不妨换成Feed43这个免费的订阅任意网站更新的在线服务。无论是使用网站,只是可以用浏览器访问的网页就可以被Feed43订阅到。

Feed43有免费套餐,6个小时抓取一次,所以Feed43不适合更新特别频繁网站订阅。Feed43可以将任意网站生成RSS订阅源,然后你可以将这个订阅源放在自己的RSS阅读器,或者你也可以配合iFTTT、fivefilters、freefullrss实现RSS全文阅读、邮箱通知和手机APP提醒。

生成和订阅任意网站RSS工具-实现RSS全文阅读,邮箱通知和手机APP提醒

更多的实用工具,你还可以看看:

  1. 三个命令工具Rsync,SCP,Tar-快速解决VPS远程网站搬家与数据同步
  2. 利用Huginn抓取任意网站RSS和微信公众号更新-打造一站式信息阅读平台
  3. 三大免费工具助你检测VPS服务器真伪-VPS主机性能和速度测试方法

PS:2018年1月31日更新,除了使用第三方的RSS订阅服务,有自己的服务器或者主机的朋友也可以深度自建RSS阅读器,参考:两款优秀的开源RSS阅读器工具:Miniflux和Tiny Tiny RSS-自建在线RSS阅读器

一、用Feed43订阅任意网站RSS方法

官网:

  1. http://feed43.com/

进入网站先注册一个账号,Feed43支持随时管理和编辑自己的订阅源。

Feed43注册账号

接着,你就可以添加自己想要订阅的网站了。 如果有乱码的话,在后面的Encoding填入:utf-8或者gbk。

Feed43添加网站

然后,Feed43会输出网页Html源码了。在 Item (repeatable) Search Pattern*: 处填写你要抓取的规则。有两个参数:{%}{*}{%}代表变量,{*}表示省略。仔细观察一下,如果我们要抓取标题,复制标题的Html标签,替换变量,不要的就省略。

参考我抓取的wzfou.com首页的最新文章的规则,如下图:

Feed43替换规则

点击Extract后如果显示没有内容,你可以先从最简单的标签开始,例如先只抓取H标签的,然后再添加其它内容标签。确定之后,就是确定RSS模板了,主要就是标题、内容、链接了。根据上面抓取的{%}内容分别填入。

Feed43设定模板

最后点击预览一下你就可以看到RSS订阅源已经成功了。

Feed43预览成功

用浏览器打开这个.xml地址,我们就能看到RSS更新的内容了。你可以用RSS阅读器订阅此RSS地址了。

Feed43生成xml地址

当然,你也可以随时修改或者删除此RSS订阅源。

Feed43管理订阅源

二、免费与自制实现RSS Feed全文阅读

2.1  RSS全文订阅在线网站

只要你填写RSS订阅地址,就可以使用以下几个网站将实现RSS全文订阅了:

  1. http://fetchrss.com
  2. http://fivefilters.org
  3. http://fullcontentrss.com/
  4. https://www.freefullrss.com/

其中,freefullrss是完全免费的,输入你的RSS订阅地址。

Feed43输入网址

然后,freefullrss就会生成RSS全文了。

Feed43全文订阅

这个地址你又可以拿给RSS阅读器订阅了,在RSS阅读器看到的就是我们订阅的全文了。(点击放大)

Feed43全文阅读

2.2  自制RSS全文订阅服务

项目地址:

  1. bitbucket:https://bitbucket.org/fivefilters/full-text-rss
  2. Github:https://github.com/Dither/full-text-rss

Full-Text RSS的bitbucket的项目貌似有更新,你可以直接使用git clone https://bitbucket.org/fivefilters/full-text-rss.git来下载最新的。Full-Text RSS就一个PHP程序,也不需要数据库。所以你下载Full-Text RSS后,解压直接上传到服务器发即可。

接着,打开网址,你就可以进入到Full-Text RSS界面了,输入你想要获取全文的RSS地址。

Feed43自建服务

解析后,就会在浏览器看到RSS全文内容了。

Feed43查看全文

Full-Text RSS还提供了抓取任意网站RSS的功能。不过,你需要先制定好抓取规则,Full-Text RSS官网也提供了网友自己做好的上千个网站规则,有些是中文的,我们可以直接拿来用。方法是:

    1. 进入到目录:site_config/standard/
    2. 删除目录内所有的内容
    3. 执行命令: git clone https://github.com/fivefilters/ftr-site-config.git .
    4. Git 会开始下载最新的 site config 文件
    5. 想要更新重复上面的操作即可, 也可以使用 git pull .

当然,我们也可以使用Full-Text RSS提供的在线生成RSS订阅源:http://createfeed.fivefilters.org/,输入你想要订阅的网站地址。

Feed43在线生成规则

然后选择网页更新内容,这时fivefilters就会生成网站抓取规则了,你直接点击下载即可。

Feed43输入想要订阅的网站

将下载下来的配置文件上传到site_config/standard/ 即可。

订阅任意网站RSS工具上传配置

三、IFTTT:实现RSS邮件通知和APP提醒

RSS订阅与IFTTT结合起来就会变得十分强大了,IFTTT可以将RSS订阅的内容推送到你的邮箱、手机、电脑等任意终端设备中。

订阅任意网站RSS工具推送通知

在IFTTT中添加了RSS订阅地址后,然后就可以在手机APP中接收提醒了。

订阅任意网站RSS工具手机接收提醒

另外,Blogtrottr支持关键字筛选并推送RSS,这样你只会收到自己感兴趣的RSS订阅内容了:https://blogtrottr.com/。

订阅任意网站RSS工具在线邮件提醒

四、总结

Feed43是一个非常强大的抓取工具,它可以订阅到任意网站并转成RSS地址,只可惜免费用户只能每6个小时更新一次。免费的RSS Feed全文阅读服务限制都比较多,在些服务还不是很稳定,还不如自建一个。

到目前来看,唯一的问题就是希望Feed43不要关闭了。毕竟是免费的第三方服务,况且现在RSS也不景气。一劳永逸的办法挖站否建议还是利用Huginn抓取任意网站RSS和微信公众号更新-打造一站式信息阅读平台

文章出自:挖站否 https://wzfou.com/rss-any/,版权所有。本站文章除注明出处外,皆为作者原创文章,可自由引用,但请注明来源。

关于站长(Qi),8年前经常混迹于免费资源圈中,有幸结识了不少的草根站长。之后自己摸爬滚打潜心学习Web服务器、VPS、域名等,兴趣广泛,杂而不精,愿意将自己经验与心得分享出来,与大家共勉。

22 个评论

  • qiuyming 回复

    2017年10月29日 at 下午10:58

    沙发一个
    另外用爬虫也可以的

  • 内部优惠券 回复

    2017年10月29日 at 下午11:53

    这几个服务都使用过,不过目的网站搞下来总是乱码,没配置好,现在根据这篇文章试试。
    单独拿个vps来做抓取的话确实有点浪费了,对vps小白来说,任何改动都怕怕的,更别说一台vps多个用途,哈哈。

    • Qi 回复

      2017年10月31日 at 上午9:26

      如果有空闲的服务器可以拿出来搞一搞,否则成本太大了。或者是大家一起共享使用也行。

  • john 回复

    2017年10月30日 at 上午1:55

    6小时抓一次时间太短了。鸡肋

    • Qi 回复

      2017年10月31日 at 上午9:25

      可以升级付费。 laugh

  • john 回复

    2017年10月30日 at 上午1:59

    Full-Text RSS 代码收下了。其实, 我 tt-rss 订阅的20多个RSS源中,也仅仅只有wzfou的feed没有提供全文输出的。@qi, 为什么你博客不输出全文?

    • Larry 回复

      2017年10月30日 at 上午6:51

      全文输出被转载到其他站点会影响搜索的收录

      • 神父 回复

        2017年10月30日 at 上午9:27

        tt-rss 有抓取全文的模块

    • Qi 回复

      2017年10月31日 at 上午9:24

      防止被人采集了。 cool

  • xzymoe 回复

    2017年10月30日 at 下午1:41

    惊现熟人 哈哈 后面的太赞同啦 一vps多用途怕……(手机打字😂😂😂qi不要通过另外两个评论)

    • 内部优惠券 回复

      2017年10月30日 at 下午6:30

      现在不搞网站了?

      • xzymoe 回复

        2017年10月31日 at 上午12:17

        工作实在太忙啦 没时间 等着买个vps重新搭理下 哈哈 没想到你竟然还在做

        • 内部优惠券 回复

          2017年10月31日 at 下午7:04

          三天打鱼两天晒网呗。网站荒废的时间比维护时间长,哈哈

    • Qi 回复

      2017年10月31日 at 上午9:22

      期待博主的新博客。 clap

      • xzymoe 回复

        2017年12月1日 at 下午10:47

        老大 现在用什么来订阅rss?Huginn?我一直用digg想换了( >﹏<。)~呜呜呜……

        • Qi 回复

          2017年12月2日 at 下午1:32

          正在用inoreader,就是访问速度慢了。

          • xzymoe 回复

            2018年1月8日 at 下午11:44

            今天发现个网站用Huginn我感觉xpath什么都配置没错 在xpath helper里也验证了 应该没问题。。。但是website agent配置后dry run一直有问题 最后就用feed43烧录那个网站了 ( >﹏<。)~呜呜呜……

            • Qi 回复

              2018年1月9日 at 上午8:38

              有些网站的层级比较多的话,貌似要设置比较的复杂的规则可以抓取到。

  • 粉刷 回复

    2017年10月31日 at 下午3:19

    RSS现在用的人是越来越少了。

  • 居正 回复

    2017年10月31日 at 下午8:38

    前面有人提到有的rss没有全文输出,刚好想到最近我用的一个api叫url2io,能直接从网页提取正文,可以配合rss使用。开发者朋友们可以了解一下~

    • Qi 回复

      2017年11月1日 at 上午8:52

      好东西。 clap

  • lsoy1740 回复

    2018年4月19日 at 下午9:20

    搜狗微信 搜的微信公众号 弄不了。。。。 clap

发表评论

Login

欢迎!请登录你的账号。

记住我 忘记密码?

还未注册 注册

Lost Password

Register

返回顶部