网站时光机(英语:Wayback Machine)是万维网或互联网上传播的其他信息的一个数字文件网站,是美国加利福尼亚州旧金山的非营利组织——互联网档案馆最重要的服务之一。
网站时光机由互联网档案馆的创始人布鲁斯特·卡利和Bruce Gilliat(英语:Bruce Gilliat)于2001年推出,以解决网站在维护或关闭时无法查看内容的问题,此外还能查看网页的历史存档版本,创始人Kahle和Gilliat希望以此能为整个互联网提供“普遍获取所有知识”的途径。
Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show(英语:The Rocky and Bullwinkle Show)中的“WABAC机器(英语:WABAC machine) ”(发音为 ),这是一个时间旅行设备。在动画片的皮博迪的不可能的历史一集中,角色使用这一机器来见证、参与甚至改变历史上的著名事件。
网站时光机于1996年开始存档缓存网页,目标是在五年后将服务公之于众。从1996年到2001年,信息保存在数字磁带上,Kahle偶尔允许研究人员和科学家使用数据库。2001年,互联网档案馆成立五周年时,加州大学伯克利分校举行了网站时光机的公布仪式。当Wayback Machine推出时,它已经存档了超过100亿个页面。
如今,数据存储在互联网档案馆的大型Linux节点聚类上。有时会重新访问并存档网站的新版本(参见下文技术细节)。如果网站允许网络时光机“爬虫索引”网站并保存数据,则也可以通过在搜索框中输入网站的URL手动捕获网站。
网络时光机已经开发了软件用于“爬虫索引”并下载所有可公开访问的万维网页面、Gopher层次结构、Usenet公告板系统和可下载软件。这些“爬虫”收集的信息并不能包括因特网上所有可用的信息,因为许多数据受发布者限制或存储在不可访问的数据库中。为了克服部分缓存网站的不一致性,2005年,互联网档案馆开发了Archive-It.org,使得机构和内容创作者可以自愿收集和保存数字内容,并创建数字档案馆。
爬虫索引来自各种来源,其中一些是从第三方导入的,而另一些是由存档内部生成的。自2010年以来,"Worldwide Web Crawls"一直在运行,并捕获全球网站。