Google Sheets如何自动抓取网页内容制作看板

我们制作报表的时候通常都会使用到一些动态的外部数据。这些数据有时候可以通过API获取，更多时候是在第三方的网页上。而且这些数据往往是动态的，需要经常刷新。那么有什么好方法可以自动地抓取这些数据呢？本篇马老师将利用Google Sheets的内置函数，分享一个实用的心得。

抓取网页中的表格或列表

Google Sheets提供了ImportHTML函数。这个函数有三个参数，分别是

URL
“table”或者”list”
从1开始的序号

用法也非常简单，输入要抓取的网页的URL，指明是第几个表格或者列表即可。

上图我们导入了百度上海本地新闻网页中的前11个列表。我们可以提取出那些有用的并汇总在一起。这里的列表实际上对应了HTML里的有序列表<ol>和无序列表<ul>，按照在HTML文件中出现的顺序排列。

上图我们从一个第三方网站导入了两个表格。这里提取的是该网页的第一和第二个表格。

有了上面这些抓取的数据我们就可以把该Google Sheet作为数据源去搭建Data Studio的看板了。

但是我们还有一步未完成，就是让数字在Sheets中刷新。为此我们要在Google Sheets的File>Settings中选择Calculation，并在Recalculation中选择On change and every hour。

抓取网页中任意内容

Google Sheets中的另一个函数ImportXML提供了我们抓取任意网页内容的能力。ImportXML有3个参数，其中第三个可以忽略。前两个是URL和XPATH。URL自不必解释，那什么是XPATH呢？

XPATH用来表示XML文档中某个元素的路径。HTML也是一种XML文档，因此HTML中的任意元素也都可以使用XPATH来定位。

比如：

//title	页面的标题元素的内容<title>标题内容</title>
//div/span[@class=’nav’]	一个<div>元素内的class为nav的<span>元素的内容

XPATH用法距离

XPATH和CSS Selector类似。现在有了ChatGPT，我们写XPATH方便了许多。

你甚至可以导入某个关键字的百度首页结果：

=IMPORTXML("https://www.baidu.com/s?wd=关键字", "//div[(contains(@class, 'result-op') and contains(@class, 'c-container') and @mu) or (contains(@class, 'result') and contains(@class, 'c-container') and @mu)]")

需要注意的是，Google Sheets抓取的IP来自Google，因此如果你的内容因为IP而变化则未必适用。另外这些函数的抓取并不会对目标URL页面进行渲染，如果服务器伺服的HTML中未包含内容，那么这些内容无法抓取。

至此，马老师是否打开了你的思路呢？

如果你会用Chrome的DevTools你可以在Elements工具中复制XPath。赶紧试试吧！

类似文章

数字广告|数字营销

Device ID之IDFA末日，猫和老鼠的游戏终将完结？
作者Hermes Ma 2020年8月5日2020年9月9日

在九月发布的iOS14中Apple🍎除了将在Safari和WKWebView中完全限制第三方Cookie，还会默认开启限制广告跟踪（LAT – Limited Ad Tracking）。有哪些你必须了解的？

阅读更多 Device ID之IDFA末日，猫和老鼠的游戏终将完结？
搜索引擎优化|数字营销

谷歌SEO – 2019年需要注意些什么？
作者Hermes Ma 2019年9月18日

2019年快过去四分之三。谷歌在今年进行了多次重要更新，对于SEO来说有哪些注意点？极诣本文将略作总结。依照惯例，福利在最后。

阅读更多谷歌SEO – 2019年需要注意些什么？
数字分析|数字营销

Google Data Studio高级使用技巧Blended Data Source和Calculated Fields
作者Hermes Ma 2020年3月11日

极诣本篇将再次探讨Google Data Studio中的两个高级功能Blended Data Source和Calculated Fields。我们会用几个实例来演示这两个功能。

阅读更多 Google Data Studio高级使用技巧Blended Data Source和Calculated Fields
数字分析|数字营销

GTM新功能，了解访客爱多深，滚多远
作者Hermes Ma 2017年11月22日

Google Tag Manager十月的更新中添加了页面滚动监测的触发器，这给我们衡量用户对内容的喜爱度提供了便利。极诣将介绍这一新功能并提供教程实现更精准的跳出率跟踪方法。

阅读更多 GTM新功能，了解访客爱多深，滚多远
搜索引擎优化|数字营销

教程：轻松使用Bing Webmaster Tools的API
作者Hermes Ma 2022年3月2日2022年3月2日

保姆级教程教你如何通过Bing Webmaster Tools API获取后台无法直接下载的数据。报表制作、数据挖掘、关键词拓展更轻松了。内容涵盖API调用，JSON处理和Google Sheets新函数建立。干货满满！

阅读更多教程：轻松使用Bing Webmaster Tools的API
数字分析|数字营销

Referral Spam的对策和思考
作者Hermes Ma 2016年3月15日2017年5月13日

每一个执着于Web Analytics的营销者都会遇到Referral Spam。极诣对于垃圾流量影响数据准确性的问题给出了解决方法。极诣将讲述如何应对Referral Spam并运用Google Analytics的Filter功能和GTM双管齐下实现Referral Spam的过滤方法。

阅读更多 Referral Spam的对策和思考