Wayback機器

Wayback機器
Stylized text saying: "INTERNET ARCHIVE WAYBACK MACHINE". The text is in black, except for "WAYBACK", which is in red.
站點類型
檔案
建立
  • 1996年5月10日(私人)
  • 2001年10月24日(公共)
提供的區域 全球(中國,俄羅斯印度巴林除外
所有者 互聯網檔案
URL Web .archive .org
商業的
登記 選修的
當前狀態 積極的
寫在 HTMLCSSJavaScriptJavaPython

Wayback Machine是位於加利福尼亞州舊金山的非營利組織Internet Archive創立的萬維網數字檔案。它創建於1996年,並於2001年向公眾推出,允許用戶“回到過去”,以查看網站過去的樣子。它的創始人布魯斯特·卡爾(Brewster Kahle)布魯斯·吉利亞特(Bruce Gilliat )通過保存已停產的網頁的存檔副本來開發Wayback機器,以提供“通用訪問所有知識”。

Wayback機器於1996年5月10日推出,於2009年底節省了超過382億個網頁。截至2024年1月3日,Wayback Machine已存檔超過8600億個網頁,並且超過99 pb的數據。

歷史

Wayback Machine於1996年開始存檔緩存的網頁。最早已知的頁面之一於1996年5月10日(UTC)歸檔。

Internet檔案創始人Brewster KahleBruce Gilliat於2001年10月在加利福尼亞州舊金山推出了Wayback Machine,主要是為了解決Web內容的問題消失時,每當它更改或關閉網站時。該服務使用戶可以在跨時間看到網頁的存檔版本,該版本將其稱為“三維索引”。卡爾(Kahle)和吉利亞特(Gilliat)創建了這台機器,希望歸檔整個互聯網並提供“通用所有知識的訪問”。 “ Wayback Machine”的名稱是對虛構的時光旅行和翻譯設備的引用,即“ Wayback Machine ”,由角色Peabody先生和Sherman在動畫卡通中使用,The Animated Cartoon The Rocky and Bullwinkle and Friends的冒險經歷。在卡通的一部分“皮博迪的不可能的歷史”中,這些角色使用機器見證,參與並經常改變歷史上的著名事件。

從1996年到2001年,該信息保存在數字磁帶上,Kahle偶爾允許研究人員和科學家利用“笨拙”的數據庫。當檔案館於2001年達到五週年紀念日時,它在加利福尼亞大學伯克利分校的儀式上向公眾開放並向公眾開放。到了Wayback機器推出時,它已經包含超過100億個存檔的頁面。數據存儲在Internet存檔的大型Linux節點集群上。它有時會重新訪問和檔案新版本的新版本(請參見下面的技術詳細信息)。也可以通過將網站的URL輸入到搜索框中,但可以手動捕獲網站,前提是該網站允許Wayback Machine“網”並保存數據。

2020年10月30日,Wayback機器開始對內容進行事實檢查。截至2022年1月,廣告服務器的域被禁止捕獲。

2021年5月,對於Internet Archive成立25週年,Wayback機器引入了“ Wayforward Machine”,該機器允許用戶“在2046年訪問Internet,其中知識正在圍困”。

技術信息

Wayback Machine的軟件已開發為“網”網絡並在網頁, Gopher層次結構, Netnews (Usenet)公告板系統和可下載軟件上下載所有公開訪問的信息和數據文件。這些“爬行者”收集的信息不包括Internet上可用的所有信息,因為許多數據受到發布者的限製或存儲在無法訪問的數據庫中。為了克服部分緩存的網站上的不一致之處,Archive-it.org於2005年由Internet Archive開發,作為允許機構和內容創建者自願收穫並保留數字內容的集合併創建數字檔案的手段。

爬網是從各種來源造成的,其中一些是從第三方進口的,而另一些則由檔案館內部產生。例如,爬網是由斯隆基金會(Sloan Foundation)阿列克薩(Alexa)貢獻的,這是由互聯網檔案代表NARA運行的爬網和互聯網記憶基金會(Internet Memory Foundation) ,這是Common Crawl的鏡子。自2010年以來,“全球網絡爬網”一直在運行並捕獲全球網絡。

文檔和資源存儲在20240115020851等時間戳URL中。頁面的單個資源(例如圖像,樣式表和腳本)以及外向超鏈接與當前查看頁面的時間戳相連,因此它們會自動重定向到最接近時間的單個捕獲。

每個網站的快照捕獲頻率各不相同。 “全球網絡爬網”中的網站包含在“爬網列表”中,每個爬網都存檔了該網站。爬網可能需要數月甚至數年的時間才能完成,具體取決於尺寸。例如,“寬爬網13”於2015年1月9日開始,並於2016年7月11日完成。但是,任何一次都可能有多次爬網,並且一個網站可能包含在一個以上的爬網列表中,因此,爬網的爬行頻率差異很大。

從2019年10月開始,用戶每分鐘限制15個檔案請求和檢索。

存儲能力和增長

隨著技術多年的發展,Wayback機器的存儲容量已經增長。在2003年,僅兩年的公共訪問權限,Wayback機器以每月12噸的速度增長。數據存儲在由Internet存檔員工設計的Petabox機架系統上。第一個100TB機架在2004年6月開始全面運行,儘管很快就顯然他們需要的存儲空間要多得多。

Internet存檔將其自定義的存儲架構遷移到2009年的Sun Open Storage ,並在Sun Microsystems的California Campus上的Sun Modular DataCenter中託管了一個新的數據中心。截至2009年,Wayback機器包含大約三個數據的數據,並且每月以100的速度增長。

Wayback機器的新版本,具有更新的接口和一個新鮮的歸檔內容索引,並在2011年提供了公共測試,在日曆佈局中捕獲帶有圓圈,其寬度每天可視化爬網的數量,即但是沒有使用星號或高級搜索頁面對重複項進行標記。添加頂級工具欄,以方便在捕獲之間導航。條形圖可視化多年來每月捕獲的頻率。隨後添加了諸如“更改”,“摘要”和圖形站點圖之類的功能。

在那年3月,在Wayback Machine論壇上說:“新的Wayback Machine的Beta具有更完整和最新的索引到2010年,並將繼續定期更新。索引駕駛經典的Wayback機器在2008年之前只有一點材料,並且沒有計劃更新,因為它將在今年逐步淘汰。”同樣在2011年,Internet檔案安裝了他們的第六對PETABOX架子,這將Wayback機器的存儲容量增加了700噸。

2013年1月,該公司宣布了一個有2400億個URL的開創性里程碑。

2013年10月,該公司引入了“保存頁面”功能,該功能允許任何Internet用戶歸檔URL的內容,並迅速生成永久鏈接,與前面的LiveWeb功能不同。

2014年12月,Wayback Machine包含4350個網頁,幾乎是9 potabytes數據,每週增長約20噸。

據報導,2016年7月,Wayback機器包含大約15粒數據。

2018年9月,Wayback Machine包含了25次數據。

截至2020年12月,Wayback機器包含70多個數據。

截至2024年1月,互聯網檔案證明,到目前為止,已經存儲了超過99 pb的數據。

Wayback機器的增長
逐年的回腰機 頁面存檔
2004
30,000,000,000 (0-100B:淺藍色)
2005
40,000,000,000
2008
85,000,000,000
2012
150,000,000,000 (100B-450B:黃色)
2013
373,000,000,000
2014
400,000,000,000
2015
452,000,000 (450B-600B:橙色)
2016
459,000,000,000
2017
279,000,000,000
2018
310,000,000,000
2019
345,000,000,000
2020
405,000,000,000
2021
514,000,000,000
2022
640,000,000,000 (600B-:紅色)

Wayback機器API

Wayback Machine Service提供三個公共API,SavePagenow,可用性和CDX。 SavePagenow可用於存檔網頁。可用性API用於檢查網頁的存檔可用性狀態,檢查網頁的存檔是否存在。 CDX API用於捕獲數據的複雜查詢,過濾和分析。

網站排除政策

從歷史上看,Wayback Machine在確定網站是否會被爬行時尊重機器人排除標準(Robots.txt),或者如果已經爬了,是否已爬行,是否可以公開查看其檔案。網站所有者可以選擇通過使用Robots.txt選擇退出Wayback Machine。它追溯地應用了robots.txt規則;如果網站阻止了互聯網檔案,則立即將任何先前從域中存檔的頁面渲染出來。此外,互聯網檔案館說:“有時,網站所有者會直接與我們聯繫,並要求我們停止爬行或歸檔網站。我們遵守這些請求。”此外,該網站還說:“互聯網檔案館對保存或提供對不希望其材料在收藏中的材料的人的網站或其他互聯網文件的訪問不感興趣。”

2017年4月17日,報導浮出水面已停用的網站,並成為使用Robots.txt將自己排除在搜索引擎之外的停放域,導致它們被無意中排除在Wayback Machine之外。 Internet存檔將策略更改為現在需要明確的排除請求,以將其從Wayback機器中刪除。

奧克蘭檔案政策

Wayback的追溯排除政策部分基於有關管理刪除請求和保存檔案完整性的建議。 Wayback遵守了這項政策,以幫助避免昂貴的訴訟。

Wayback追溯排除政策在2017年開始放鬆,當時它停止尊重美國政府和軍事網站上的機器人,以爬行和顯示網頁。截至2017年4月,Wayback更廣泛地忽略了Robots.txt,而不僅僅是美國政府網站。

用途

從2001年的公開發布開始,Wayback機器已經由學者研究了其存儲和收集數據的方式以及其存檔中包含的實際頁面。截至2013年,學者在Wayback機器上寫了大約350篇文章,主要來自信息技術,圖書館科學和社會科學領域。社會科學學者已經使用Wayback機器來分析從1990年代中期到現在的網站開發如何影響公司的增長。

當Wayback機器歸類一個頁面時,它通常包括大多數超鏈接,在這些鏈接很容易被Internet的不穩定中折斷時保持活躍。印度的研究人員研究了Wayback機器在在線學術出版物中節省超鏈接的能力的有效性,並發現它節省了一半以上。

“記者使用Wayback Machine查看死去的網站,日期的新聞報導以及對網站內容的更改。其內容已用於使政客負責並揭露戰場的謊言。” 2014年,烏克蘭分離主義的叛軍領導人伊戈爾·吉爾金(Igor Girkin)的一個存檔社交媒體頁面顯示,他吹噓自己的部隊擊落了一架涉嫌烏克蘭軍事飛機,然後才知道這架飛機實際上是一架平民馬來西亞航空公司(馬來西亞航空公司) 17號航班),之後,他刪除了該職位,並指責烏克蘭的軍隊擊倒了飛機。 2017年,《科學三月》源自關於Reddit的討論,該討論表明有人訪問了Archive.org,並發現所有關於氣候變化的參考均已從白宮網站刪除。作為回應,用戶評論說:“需要在華盛頓上進行科學家的遊行”。

此外,該站點被大量用於驗證,可提供Wikipedia編輯者對參考和內容創建的訪問。

2020年9月,宣布與CloudFlare建立合作夥伴關係,將通過其“始終在線”服務自動歸檔網站,如果無法到達原始主機,它也將允許其引導用戶進入其網站的副本。

限制

在2014年,網站被爬行到可以在Wayback機器中查看的時間之間有六個月的滯後時間。目前,滯後時間為3到10個小時。 Wayback Machine僅提供有限的搜索設施。它的“站點搜索”功能使用戶可以根據描述站點的單詞找到一個站點,而不是在網頁本身上找到的單詞。

Wayback Machine由於其Web爬網的局限性而沒有包含所有網頁。 Wayback Machine無法完全存檔包含交互式功能的網頁,例如Flash平台和JavaScript和Progressive Web應用程序編寫的表格,因為這些功能需要與主機網站進行交互。這意味著,自2013年7月9日以來,Wayback機器在保存視頻的手錶頁面時無法顯示YouTube評論,因為根據檔案團隊的說法,評論不再“加載到頁面本身中”。 Wayback Machine的Web抓刀很難提取在HTML或其一種變體中未編碼的任何內容,這通常會導致超鏈接和缺失的圖像破裂。因此,Web爬網無法存檔其他頁面與其他頁面無關的“孤兒頁”。 Wayback Machine的爬網僅根據預設深度限制遵循預定數量的超鏈接數,因此它不能存檔每個頁面上的每個超鏈接。

在法律證據中

民事訴訟

Netbula LLC訴Chordiant Software Inc.

在2009年的案例中, Netbula,LLC訴Chordiant Software Inc. ,被告Chordiant提出了一項動議,以強迫Netbula在其網站上禁用Robots.txt文件,該文件正在導致Wayback Machine追溯刪除對以前版本的頁面的訪問Chordiant認為會支持其案件的頁面從Netbula的網站上存檔。

Netbula反對該動議,理由是被告要求更改Netbula網站,並且他們應該直接向這些頁面進行互聯網檔案。互聯網檔案館的一名員工提出了支持Chordiant動議的宣誓聲明,並指出,它無法通過任何其他方式產生網頁,“沒有巨大的負擔,費用和破壞其運營。”

加利福尼亞州北區聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)拒絕了Netbula的論點,並命令他們禁用機器人。TXT暫時阻塞,以便Chordiant允許Chordiant檢索他們所尋求的存檔頁面。

Telewizja Polska USA,Inc。訴Echostar衛星

在2004年10月的案例中, Telewizja Polska USA,Inc 。訴Echostar衛星,第02 C 3293號,65 Fed。 R. Evid。服務。 673(ndIll。2004年10月15日),一名訴訟人試圖將Wayback機器檔案作為可接受證據的來源,也許是第一次。 Telewizja Polska是TVP Polonia的提供商, Echostar運營著DIST網絡。在審判程序之前,Echostar表示,它打算提供Wayback Machine快照,以證明Telewizja Polska網站的過去內容。 Telewizja Polska提出了一項動議,以傳聞和未經身份驗證的來源來抑制快照,但地方法院法官Arlander Keys拒絕了Telewizja Polska對傳聞的主張,並否認TVP在Limine中拒絕了TVP的動議,以在試驗中排除證據。然而,在審判中,審判法官羅納德·古茲曼(Ronald Guzman)否決了地方法院鑰匙的調查結果,並認為互聯網檔案員工的宣誓書和基本頁面(即,telewizja polska網站)都不是可接受的。古茲曼法官認為,該員工的誓章既包含傳聞和尚無定論的支持陳述,又包含所謂的網頁,打印輸出並非自修。

專利法

美國專利商標局歐洲專利局將接受互聯網檔案中的日期郵票,以證明何時可以向公眾訪問給定的網頁。這些日期用於確定在檢查專利應用程序時是否可以作為先前的藝術品可用。

實用程序的局限性

歸檔網站存在技術限制,因此,訴訟中的反對黨可能會濫用網站檔案提供的結果。當不暴露基礎鏈接時,在投訴,答案或專家證人報告中提交網頁屏幕截圖的做法可能會加劇此問題,因此可能包含錯誤。例如,諸如Wayback Machine之類的檔案不會填寫表格,因此,在其檔案中不包括非靜止電子商務數據庫的內容。

法律地位

在歐洲,Wayback機器可以解釋為違反版權法。只有內容創建者才能確定其內容的發布或重複的位置,因此檔案中必須應創建者的要求從其係統中刪除頁面。 Wayback機器的排除政策可以在網站的FAQ部分中找到。

某些情況是針對Internet檔案館的,專門針對其Wayback機器歸檔工作。

存檔的內容法律問題

科學學

2002年底,Internet檔案館刪除了Wayback Machine對科學學批評的各種站點。一條錯誤消息指出,這是對“站點所有者的請求”的回應。後來,有人澄清說,科學教會的律師要求撤職,並且現場所有者不希望將其材料刪除。

醫療保健倡導者公司

2003年,Harding Earley Follmer&Frailey使用Archive的Wayback機器為客戶辯護。律師能夠證明原告提出的索賠是根據其網站前幾年的內容而無效的。原告,醫療保健倡導者,然後修改了他們的投訴,包括互聯網檔案,指控組織侵犯版權以及違反DMCA和《計算機欺詐與濫用法》 。醫療保健的擁護者聲稱,由於他們已經在其網站上安裝了一個機器人。txt文件,即使在提起初始訴訟後,檔案中也應該從Wayback Machine上刪除原告網站的所有以前的副本,但是,一些材料繼續繼續進行。在Wayback上公開可見。訴訟解決了問題,該訴訟已在法庭上解決。

蘇珊·殼

激進主義者Suzanne Shell於2005年12月提起訴訟,要求互聯網檔案支付100,000美元歸檔她的網站Profane-justice.org在1999年至2004年之間2006年1月20日,尋求司法確定互聯網檔案並不侵犯殼牌的版權。殼牌作出了回應,並帶來了針對互聯網檔案館的反訴訟,以歸檔她的網站,她聲稱這違反了她的服務條款。 2007年2月13日,科羅拉多州美國地方法院的法官駁回了除違反合同外的所有反訴。互聯網檔案並未駁回因其複制活動而宣稱的殼牌侵犯版權索賠,這也將繼續進行。

2007年4月25日,Internet Archive和Suzanne Shell共同宣布了他們的訴訟解決。互聯網檔案館說:“……不希望在不希望將網絡內容存檔的人的Wayback機器中加入材料。我們認識到,Shell女士在她的網站中具有有效且可執行的版權,我們遺憾的是,將她的網站納入Wayback Machine導致了這一訴訟。”殼牌說:“我尊重互聯網檔案的目標的歷史價值。我從來沒有打算干擾這個目標,也不造成任何傷害。”

丹尼爾·戴維迪克(Daniel Davydiuk)

在2013年至2016年之間,一位名叫Daniel Davydiuk的色情演員試圖將自己的存檔圖像從Wayback Machine的檔案中刪除,首先是通過向檔案館發送多個DMCA請求,然後向加拿大聯邦法院提出上訴。然後,這些圖像最終在2017年從網站上刪除。

靈活

2018年, Stalkerware應用程序的檔案彈性彈性的網站被從Wayback機器中刪除。該公司聲稱已經聯繫了互聯網檔案館,大概是為了刪除其網站的檔案。

審查制度和其他威脅

Archive.org在中國被阻塞。 2015 - 16年度,互聯網檔案在俄羅斯的整體上被封鎖,表面上是主持聖戰外展視頻。自2016年以來,該網站已經回來了,儘管在2016年,俄羅斯商業遊說者正在起訴互聯網檔案,以根據版權理由禁止該檔案。

2015年3月,有消息稱,安全研究人員意識到該部門無意中託管歸檔現場的惡意二進製文件所帶來的威脅。

圖書館自由項目主任艾莉森·馬克琳娜(Alison Macrina)指出,“儘管圖書館員對個人隱私深表珍視,但我們也強烈反對審查制度”。

至少有一個情況下,將其從其原始網站刪除後不久將其從檔案中刪除。每日野獸記者寫了一篇文章,該文章在2016年在約會應用程序上以同性戀者的身份擺姿勢,於2016年發表了幾名同性戀奧林匹亞運動員。每日野獸與廣泛的憤怒相遇後,將其刪除。不久之後,互聯網檔案也很快也做了,但強調說,除了保護外出運動員的安全外,他們沒有其他原因這樣做。

其他威脅包括自然災害,破壞(遠程或物理),對檔案內容的操縱(另請參閱:網絡攻擊備份),有問題的版權法和對網站用戶的監視。

Long Now Foundation的執行董事亞歷山大·羅斯(Alexander Rose)懷疑,從長遠來看,幾代人幾乎沒有任何東西”將以有用的方式生存,並指出:“如果我們在技術文明中具有連續性,我懷疑很多裸露的數據將保持可搜索和可搜索。

在一篇關於人類知識保存的文章中,大西洋評論說,互聯網檔案描述為長期建立的互聯網檔案。的。”

也可以看看