关于 Miner 平台,这里有一些话想要说。

历史

想要做一个 Miner 这样的平台,这个想法可能要追溯到两年前了。

那是一个阳光明媚的晚上,我穿着那件洁白的黑背心,坐在我宽阔的小桌子前,搓了搓手,打开我那崭新的破电脑。

忘了说,那时的我刚毕业,初出茅庐,涉世未深。当然一腔热血还是有的,每天想着怎么样才能用给自己的所学报效国家,为国家创造价值,为中华名族的伟大复兴而努力奋斗,哪怕粉身碎骨也在所不辞。

翻译一下,刚毕业没啥经验,想尽快提升自己。找了好多大牛的博客,好多网站(大概几百上千个吧)。学习上边的经验。

但是这时就出来一个问题,我没有那么多时间每天翻阅这些网站。要是有个工具能帮我这么做就好了。

也就是这个原因,我了解到了 RSS,同时也了解到了 gooele 大大发布的,口碑极好的 RSSReader 已经下线了。阅遍千山万水仍然没找到一款特别合适的。

自己做一个吧!!

于是当时很快就出了一个版本 miner github

过渡

讲道理,有一个还不错的版本,能用,问题也解决了。

但是,用了一段时间,觉得只有自己用太无聊了。没错我就是这么一个胸怀大志的人。心系天下。没错。

但是产品具体的样子是什么样,这个问题一直困扰着我。我不想做一个市面上已经有了的产品出来。

于是兜兜转转这么长时间就过去了。直到前段时间,由于换了工作,开始接触一些网络安全的业务。但是我本人并没有任何网络安全的背景,所以需要学习的东西还挺多的。

于是又想起了这个项目,这才一鼓作气做了下来。并取名 miner plus

Miner

正如在网站简介中说的那样,这是一个服务于个人顺便服务于广大人民群众的项目。主要做了四个工作。

下面着重说下以上四个方面:

数据源收集

俗话说的好 巧妇难为无米之炊,数据源可以说是立身根本了。这里使用的数据源为自己之前收集的各种网站、博客地址等共 1531 条。以及广大人民群众提交的地址若干。
Miner 提交资源

数据爬取

说到数据爬取就离不开爬虫两个字,这里使用自己开发的爬虫框架 Cockroach 这里可以广告一下,各位看官若是感觉还看的过去给个 start 可好? 若是感觉看不过去,加个微信喷我一顿也行,好让我知道天有多蓝海有多深,花儿为什么这样红。

爬虫这里主要分为一下几部分:

这里具体的技术以后开专门的博客再说吧,这里只做概述。

数据分类

这里没啥技术含量,人工分类。

其实本来是想做机器学习自动分类的,但是这样一来回引入其他几个问题。

  1. 硬件成本增加
    本来有一台内存1G的服务器妥妥的坚持好几年也说不定,但是如果机器学习上线的话,就不一定了。我一个穷光蛋可供应不起。

  2. 软件成本增加
    需要另外增加一个分类器的程序,不是不能,是懒。OK

  3. 结果的准确性
    结果准确与否,还是需要人工审查。

  4. 等等
    还有等等一系列问题就不分开来阐述了。

数据推送

数据推动这里目前总共有三个渠道。

在 Miner 主页上有订阅按钮,可以使用邮箱进行订阅。同时会有机器人每天固定时间推送结果到新浪微博上。另外每天的文章会生成rss订阅文件。

后续可能会增加的订阅渠道。

等等。

END

大体上就这么多,后续有什么再补充吧。