机器学习竟无需代码!一起点点点,BigML初探
对于机器学习感兴趣的小朋友最多是被各种编程代码“劝退”的。搭环境,建模,预测,有时候你或许有不错的想法却恨“武艺不精”而“胎死腹中”。为了解决这些困惑,本篇极诣就将通过介绍一个成熟的机器学习平台BigML(bigml.com)为你提供一些思路。

机器学习能做什么?
举个最简单的例子,我们有一个数据集,差不多就是一个Excel表格。表格里有自然搜索排名,是否出图,还有对应的点击率三栏数据,然后有几千行。那么你就可以将这几千行数据作为训练数据来建立一个模型,输入为前两列搜索排名和是否出图,输出为点击率。然后你会有一组测试数据,可以通过输入搜索排名和是否出图来预测点击率。
当然实际情况会要复杂很多,我们这个例子是为了说明机器学习可以为我们做些什么?通过这个例子我们可以拓展出其他应用,比如网页标题对点击率的影响。如果我们更改了某个网页的标题和描述会对点击率有多少提升。再比如,网页中怎样插入图片可以增加搜索结果页面上出图的概率。这样我们不单可以获得预测结果,还能够获得改进我们数字营销表现的具体方法。
机器学习还能够帮我们做其他事情,比如我们可以通过训练自动标记用户评论或者社交媒体上提及的感情色彩。我们可以对评论进行自动分类。这样我们可以通过显著性排序优先解决那些“愤怒”的客户。
可以说机器学习“Makes our life easier”,它通过大数据为我们归纳出一些规律,帮助我们进行决策。
机器学习也可以很简单
如果我们准备好了输入数据,那么接下来的工作将会非常简单。只需要在BigML(bigml.com)这样的机器学习平台上点点点就好了。BigML是相当成熟的平台,而且它对中国用户“非常有诚意”,竟然把整个界面都汉化了。这更是为机器学习小白攻克英文术语提供了方便。在配置数据源中你还可以指定中文,支持标记化、停顿词删除等特性,便于中文文本的处理!

而且,BigML对学习和教育为目的的用户是免费的。再说一遍,BigML是免费的!你只需一个电邮地址,无需提供信用卡号码便可以享受最高16MB的数据集处理环境。16MB你可以玩超多花样了!想象一下16MB的CSV文件可以包含多少数据?
机器学习实例 – 红酒销售预测
那让我们一起ML吧!我们先来看一个例子。当你注册好免费的BigML后可以从默认的项目BigML Intro Project找到一个数据源Fictional Wine Sales。
数据源就是原始数据文件,这里的格式是TSV。TSV和CSV差不多,只不过是用Tab分隔而不是逗号。点击这个文件后看到下图:

你看影响红酒销售总额(Total Sales)的因素可能有那么多——产地、葡萄种类、评级、是否来自俄勒冈、售价。那么哪些才是最重要的呢?我们把鼠标移到带云的小闪电,选择单击数据集。很快我们就从数据源(原始数据)获得了数据集(粗加工数据)。我们鼠标移到右上的小齿轮图标,选择模型。

接着点击创建模型。不用多久你就能得到一个决策树模型。这个模型是BigML自动训练出来的,至此我们竟然一行代码都没写。

接下来我们便可以进行预测了,鼠标移到带云的小闪电,点击预测。我们可以得到如下预测界面。

你可以手动调整各个输入参数以获得最终预测的销售总额。如上图,首先我们看到定价、葡萄种类、评分是最高的三个影响因素。定价42,解百纳,评分为90的法国红酒大约能销售54.16。顺便提一句,这和笔者挑酒的思路完全一致。嘿嘿。
我们可以对目前的模型进行评估。回到模型,鼠标移到带云的小闪电,点击评估。然后选择另一组数据进行评估。在这里我们用同样一组数据进行评估。结果会发现该模型很糟糕(汗)。这说明我们需要对模型进行改进。

解决方法是改进我们的模型,有几个思路:
- 换另一种模型,比如从决策树换为深度网。
- 对数据集进行集成获得多个决策树的决策森林。
- 用无监督学习先将数据集分类,然后创建子数据集按子集进行建模预测。
- 获取更多实例,再训练后获得精度更高的模型。
关于BigML的更多学习资源
上面我们的实例里面介绍了BigML的基本用法。感兴趣吗?BigML官方在油管还提供了一系列视频教学(在优酷有渣画质的版本),你可以通过顶部菜单的入门浏览。教程中提供了更多实例你都可以在新手项目中找到数据源自己玩一下。
另外Hamlet Batista在SEJ有一个不错的教程,教SEO如何利用机器学习提高效率。祝ML愉悦!