Wayback Machine
![]() | |
站點類型 | 檔案 |
---|---|
成立 |
|
服務區 | 全球(除了中國和巴林) |
所有者 | 互聯網檔案 |
URL | 網絡 |
商業的 | 不 |
登記 | 可選的 |
當前狀態 | 積極的 |
寫在 | 爪哇,Python |
這Wayback Machine是數字檔案的全球資訊網由互聯網檔案,一個基於非營利的非營利組織加利福尼亞州舊金山。它創建於1996年,並於2001年向公眾推出,允許用戶“回到過去”,並查看網站過去的樣子。它的創始人,布魯斯特·卡爾(Brewster Kahle)和布魯斯·吉利亞特(Bruce Gilliat),開發了Wayback Machine,通過保留已停產網頁的存檔副本來提供“通用對所有知識的訪問”。[1]
1996年5月10日推出的Wayback機器在2009年底發行了超過3820萬張。截至2022年11月[更新],Wayback機器節省了超過7800億個網頁。[2]每天添加超過3.5億個網頁。[3]
歷史
Wayback機器開始存檔緩存1996年的網頁。最早的已知頁面之一於1996年5月10日在2:08保存下來 下午[4]
互聯網檔案創始人布魯斯特·卡爾(Brewster Kahle)和布魯斯·吉利亞特(Bruce Gilliat)啟動了Wayback Machine舊金山,加利福尼亞,[5]2001年10月,[6][7]主要是為了解決Web內容的問題,每當它更改或關閉網站時,它消失了。[8]該服務使用戶可以看到網頁在時間上,存檔稱為“三維索引”。[9]Kahle和Gilliat創建了這台機器,希望歸檔整個Internet並提供“通用所有知識的訪問”。[10]名稱“ Wayback Machine”是對虛構的時間旅行和翻譯設備的引用Wayback Machine”,由人物使用皮博迪先生和謝爾曼在動畫卡通中洛磯和牛角的冒險和朋友.[11][12]在卡通的一個部分“皮博迪的不可能的歷史”中,這些角色使用機器見證,參與並經常改變歷史上的著名事件。
從1996年到2001年,該信息保存在數字磁帶上,卡勒偶爾允許研究人員和科學家利用“笨拙”數據庫.[13]當檔案館在2001年達到五週年紀念日時,它在儀式上揭幕並向公眾開放。加州大學伯克利分校.[14]到了Wayback機器推出時,它已經包含超過100億個存檔的頁面。[15]數據存儲在Internet存檔的大集群中Linux節點。[10]它有時會重新訪問和檔案新版本的新版本(請參見下面的技術詳細信息)。[16]也可以通過輸入網站來手動捕獲網站URL進入搜索框,前提是該網站允許Wayback機器“爬網”並保存數據。[17]
2020年10月30日,Wayback機器開始對內容進行事實檢查。[18]截至2022年1月,廣告服務器被禁止捕獲。[19]
對於Internet Archive成立25週年,Wayback Machine引入了“ Wayforward Machine”,該機器允許用戶“在2046年前往Internet,其中知識不在圍城”。[20][21]
技術信息
軟件已開發為“爬行“網絡並在網頁上下載所有公開訪問的信息和數據文件,Gopher層次結構,Netnews(USENET)公告板系統和可下載的軟件。[22]這些“爬網”收集的信息不包括Internet上可用的所有信息,因為許多數據受到發布者的限製或存儲在無法訪問的數據庫中。為了克服部分緩存的網站上的不一致之處,Archive-it.org於2005年由Internet Archive開發,作為允許機構和內容創建者自願收穫並保留數字內容的集合併創建數字檔案的手段。[23]
爬網是從各種來源造成的,其中一些是從第三方進口的,而另一些則由檔案館內部產生。[16]例如,爬行是由斯隆基金會和Alexa,由Internet檔案代表運行的爬網奈良和互聯網記憶基礎,鏡子常見的爬網.[16]自2010年以來,“全球網絡爬網”一直在運行並捕獲全球網絡。[16][24]
文檔和資源存儲在時間戳記的URL中,例如20230105230030
。頁面的單個資源(例如圖像,樣式表和腳本)以及傳出的超鏈接與當前查看的頁面的時間戳相連,因此它們會自動重定向到最接近時間的單個捕獲。[25]
每個網站的快照捕獲頻率各不相同。[16]“全球網絡爬網”中的網站包含在“爬網列表”中,每個爬網都存檔了該網站。[16]爬網可能需要數月甚至數年的時間才能完成,具體取決於尺寸。[16]例如,“ Wide Crawl Number 13”於2015年1月9日開始,並於2016年7月11日完成。[26]但是,任何時候都可能有多次爬網,並且一個站點可能包含在一個以上的爬網列表中,因此站點被爬網的頻率差異很大。[16]
從2019年10月開始,用戶是有限的至15個檔案請求和每分鐘檢索。[27][為什麼?]
存儲能力和增長
隨著技術多年的發展,Wayback機器的存儲容量已經增長。在2003年,僅兩年的公共訪問權限,Wayback機器以每月12噸的速度增長。數據存儲在pepabox機架系統由Internet檔案工作人員定制。第一個100TB機架在2004年6月開始完全運行,儘管很快就顯然他們需要的存儲空間要比這要多得多。[28][29]
互聯網存檔將其自定義存儲架構遷移到太陽打開存儲在2009年,並在A中託管了一個新的數據中心太陽模塊化數據中心上太陽微型系統'加利福尼亞校園。[30]截至2009年[更新],Wayback機器大約包含三個pb數據的增長率為100trabytes每一個月。[31]
Wayback機器的新版本,具有更新的接口和一個新鮮的歸檔內容索引,並於2011年可用於公開測試,在日曆佈局中捕獲帶有圓圈,其寬度可視化每天的寬度數量,但是沒有使用星號或高級搜索頁面對重複項進行標記。[32][33]在頂上工具欄已添加以方便在捕獲之間導航。條形圖可視化多年來每月捕獲的頻率。[34]隨後添加了諸如“更改”,“摘要”和圖形站點圖之類的功能。
在那一年的三月,在Wayback Machine論壇上說“新Wayback Machine的Beta具有更完整和最新的索引,所有爬行材料都將在2010年進行,並將繼續定期更新。索引駕駛經典的Wayback機器在2008年之前只有一點點材料,並且沒有計劃進一步的索引更新,因為它將在今年逐步淘汰。”[35]同樣在2011年,Internet檔案安裝了他們的第六雙Petabox機架,將Wayback機器的存儲容量增加了700噸。[36]
2013年1月,該公司宣布了一個有2400億個URL的開創性里程碑。[37]
2013年10月,該公司介紹了“保存頁面”功能[38][39]它允許任何互聯網用戶存檔URL的內容,並迅速生成一個永久鏈接與前面不同Liveweb特徵。
2014年12月,Wayback機器包含435十億網頁 - 幾乎九點數據的數據,每週增長約20噸。[15][40][41]
2015年3月,出版了安全研究人員意識到該部門無意的威脅託管惡意二進制來自存檔的站點。[42][43]
據報導,2016年7月,Wayback機器包含大約15位數據。[44]
2018年9月,Wayback Machine包含了25次數據。[45][46]
截至2020年12月,Wayback機器包含超過70位數據。[47]
逐年的回腰機 | 頁面存檔 |
---|---|
2004 | 300,000,000,000(0-100b:淺藍色) |
2005 | 40,000,000,000 |
2008 | 85,000,000,000 |
2012 | 150,000,000,000(100B-450B:黃色) |
2013 | 373,000,000,000 |
2014 | 4億 |
2015 | 452,000,000,000(450b-600b:橙色) |
2016 | 459,000,000,000 |
2017 | 279,000,000,000 |
2018 | 310,000,000,000 |
2019 | 345,000,000 |
2020 | 405,000,000 |
2021 | 514,000,000,000 |
2022 | 640,000,000,000(600b-:紅色) |
在2013年10月至2015年3月之間,該網站的全球Alexa等級從163改變了[50]到208。[51]2019年3月,排名為244。[52]
Wayback機器API
Wayback Machine服務提供三個公共API,SavePagenow,avausibaly和CDX。[53]SavePagenow可用於存檔網頁。可用API檢查網頁的存檔可用性狀態,[54]檢查是否存在網頁的存檔。CDX API用於捕獲數據的複雜查詢,過濾和分析。[55][56]
網站排除政策
從歷史上看,Wayback機器尊重機器人排除標準(robots.txt)在確定網站是否會被爬行時 - 或者如果已經爬行,是否可以公開查看其檔案。網站所有者可以選擇通過使用Robots.txt選擇退出Wayback Machine。它追溯地應用了robots.txt規則;如果一個網站阻止了互聯網檔案,則立即將任何先前從域的存檔頁面渲染出來。此外,互聯網存檔還說:“有時,網站所有者會直接與我們聯繫,並要求我們停止爬行或歸檔網站。我們遵守這些請求。”[57]此外,該網站還說:“ Internet檔案館對保存或提供對不希望收藏中材料的人員的網站或其他互聯網文件的訪問不感興趣。”[58][59]
2017年4月17日,報告浮出水面的報導已倒閉並成為停放的域那是使用robots.txt將自己排除在搜索引擎之外,導致它們被無意中排除在Wayback機器之外。[60]Internet存檔將策略更改為現在需要明確的排除請求,以將其從Wayback機器中刪除。[25]
奧克蘭檔案政策
Wayback的追溯排除政策部分基於管理刪除請求和保存檔案完整性的建議由信息管理和系統學院發布加州大學伯克利分校2002年,該網站所有者有權阻止對網站檔案的訪問權限。[61]Wayback遵守了這項政策,以幫助避免昂貴的訴訟。[62]
Wayback追溯排除政策在2017年開始放鬆,當時它停止尊敬美國政府和軍事網站上的機器人,以爬行和顯示網頁。截至2017年4月,Wayback更廣泛地忽略了Robots.txt,而不僅僅是美國政府網站。[63][64][65][66]
用途
從2001年的公開發布開始,學者們已經研究了其存儲和收集數據的方式以及其存檔中包含的實際頁面。截至2013年,學者在Wayback機器上寫了大約350篇文章,主要來自信息技術,圖書館科學和社會科學領域。社會科學學者已經使用Wayback機器分析了從1990年代中期到現在的網站開發如何影響公司的增長。[15]
當Wayback Machine歸類一個頁面時,它通常包含大多數超鏈接,在這些鏈接很容易被Internet的不穩定破壞時保持活躍。印度的研究人員研究了Wayback機器在在線學術出版物中節省超鏈接的能力的有效性,並發現它節省了一半以上。[67]
“記者使用Wayback Machine查看死去的網站,日期的新聞報導以及對網站內容的更改。其內容已用於使政客負責並揭露戰場的謊言。”[68]2014年,一個存檔的社交媒體頁面伊戈爾·吉爾金(Igor Girkin)是烏克蘭的一位分離主義叛軍領導人,向他展示了他的部隊擊倒了一架烏克蘭軍事飛機,然後才知道這架飛機實際上是馬來西亞平民的航空公司飛機(馬來西亞航空公司17號航班),之後,他刪除了該職位,並指責烏克蘭的軍隊擊倒了飛機。[68][69]在2017年,科學三月起源於討論reddit這表明有人訪問了Archive.org並發現所有引用氣候變化已從白宮網站刪除。作為回應,用戶評論說:“需要在華盛頓上進行科學家的遊行”。[70][71][72]
2020年9月,與Cloudflare要自動通過其“始終在線”服務提供服務的網站,如果它無法到達原始主機,它也可以將用戶引導到該網站的副本。[74]
限制
在2014年,網站被爬行到可以在Wayback機器中查看的時間之間有六個月的滯後時間。[75]目前,滯後時間為3到10個小時。[25]Wayback Machine僅提供有限的搜索設施。它的“站點搜索”功能使用戶可以根據描述站點的單詞找到一個站點,而不是在網頁本身上找到的單詞。[76]
Wayback Machine由於其Web爬網的局限性而沒有包含所有網頁。Wayback Machine無法完全存檔包含交互功能的網頁,例如閃存平台和JavaScript和漸進的Web應用程序,因為這些功能需要與主機網站互動。這意味著,自2013年7月9日以來,Wayback機器在保存視頻的手錶頁面時無法顯示YouTube評論,因為根據檔案團隊的說法,評論不再“加載到頁面本身中”。[77]Wayback Machine的Web爬行者很難提取在HTML或其一種變體中未編碼的任何內容,這通常會導致超鏈接和缺失的圖像破裂。因此,Web爬網無法存檔其他頁面與其他頁面無關的“孤兒頁”。[76][78]Wayback Machine的爬網僅根據預設深度極限遵循預定數量的超鏈接數,因此它不能存檔每個頁面上的每個超鏈接。[24]
在法律證據中
民事訴訟
Netbula LLC訴Chordiant Software Inc.
在2009年的情況下Netbula,LLC訴Chordiant Software Inc.,被告和弦提出了一項動議,要求Netbula禁用robots.txt在其網站上歸檔,該網站正在導致Wayback Machine追溯訪問其從Netbula的網站存檔的頁面的先前版本,Chordiant認為會支持其案例。[79]
Netbula反對該動議,理由是被告要求更改Netbula的網站,並且他們應該直接向互聯網檔案進行傳喚。[80]互聯網檔案館的一名員工提出了支持Chordiant動議的宣誓聲明,並指出,它無法通過任何其他方式產生網頁,“沒有巨大的負擔,費用和對其運營的破壞”。[79]
加利福尼亞州北區聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)拒絕了Netbula的論點,並命令他們禁用機器人。TXT臨時堵塞,以允許Chordiant檢索他們所尋求的存檔頁面。[79]
Telewizja Polska USA,Inc。訴Echostar衛星
在2004年10月的案件中Telewizja Polska USA,Inc。v。迴聲衛星,No. 02 C 3293,65 Fed。R. Evid。服務。673(2004年10月15日,N.D.Ill。10),一名訴訟人試圖將Wayback Machine檔案作為可接受證據的來源,也許是第一次。Telewizja Polska是TVP Polonia和Echostar操作盤式網絡。在審判程序之前,Echostar表示,它打算提供Wayback Machine快照,以證明Telewizja Polska網站的過去內容。Telewizja Polska帶來了動議在極限抑制在地面上的快照傳聞和未經驗證的消息來源,但是地方法官阿蘭德·凱斯(Arlander Keys)拒絕了telewizja Polska對傳聞的主張,並否認了TVP的動議在極限在審判中排除證據。[81][82]然而,在審判中,初審法官的地方法院法官羅納德·古茲曼(Ronald Guzman)否決了地方法院鑰匙的調查結果,並認為互聯網檔案員工的宣誓書和基本頁面(即telewizja polska網站)都不是可公開的。古茲曼法官認為,該員工的誓章既包含傳聞和尚無定論的支持陳述,又包含所謂的網頁,打印輸出並非自治。[83][84]
專利法
只要滿足一些其他要求(例如,提供檔案管理員的權威性聲明)美國專利局和歐洲專利局將接受Internet存檔中的日期郵票,以證明公眾何時可以訪問給定的網頁。這些日期用於確定網頁是否可用先前的藝術例如,檢查專利申請。[85]
效用的局限性
歸檔網站存在技術限制,因此,訴訟中的反對黨可能會濫用網站檔案提供的結果。當不暴露基礎鏈接時,在投訴,答案或專家證人報告中提交網頁屏幕截圖的實踐可能會加劇此問題,因此可能包含錯誤。例如,諸如Wayback Machine之類的檔案不會填寫表格,因此,不包括非 - 內容安息其檔案中的電子商務數據庫。[86]
法律地位
在歐洲,可以將Wayback機器解釋為違反版權法律。只有內容創建者才能確定其內容的發布或重複的位置,因此存檔必須應創建者的要求從其係統中刪除頁面。[87]Wayback機器的排除政策可以在網站的FAQ部分中找到。[88]
某些情況是針對Internet檔案的,專門針對其Wayback機器歸檔工作。
存檔的內容法律問題
科學學
在2002年底,互聯網檔案刪除了批評的各個站點科學學從Wayback機器。[89]一條錯誤消息指出,這是對“站點所有者的請求”的回應。[90]後來,澄清說的是科學教堂曾要求拆除,並且現場所有者不希望將其材料刪除。[91]
醫療保健倡導者公司
2003年,Harding Earley Follmer&Frailey使用Archive的Wayback機器為客戶辯護。律師能夠證明原告提出的索賠是基於幾年前其網站的內容。原告,醫療保健倡導者,然後修改了他們的投訴,以包括互聯網檔案,指控組織侵犯版權以及違反侵犯DMCA和計算機欺詐與濫用法。醫療保健倡導者聲稱,由於他們已經安裝了robots.txt即使在提起初始訴訟後,檔案中也應在其網站上提交文件,但該檔案應從Wayback Machine上刪除了原告網站的所有以前的副本,但是,一些材料在Wayback上繼續公開可見。[92]訴訟在解決問題後,在法庭上解決了訴訟。[93]
蘇珊·殼
活動家蘇珊·殼於2005年12月提起訴訟,要求互聯網檔案支付100,000美元,用於在1999年至2004年之間歸檔她的網站profane-justice.org。[94][95]互聯網檔案提交了聲明性判斷動作美國加利福尼亞北區美國地方法院2006年1月20日,尋求司法確定互聯網檔案沒有違反殼牌版權。殼響應並帶來了反擊反對互聯網檔案存檔,以歸檔她的網站,她聲稱是違反她的服務條款.[96]2007年2月13日,一名法官美國科羅拉多州地方法院駁回了所有反訴違反合約.[95]互聯網檔案沒有解僱版權侵權索賠殼主張,其複制活動也會繼續進行。[97]
2007年4月25日,Internet Archive和Suzanne Shell共同宣布了他們的訴訟解決。[94]互聯網檔案說:“……沒有興趣在不希望將網絡內容存檔的人的Wayback機器中加入材料。我們認識到,Shell女士在她的網站上具有有效且可執行的版權,我們遺憾的是,將她的網站納入Wayback Machine導致了這一訴訟。”殼牌說:“我尊重互聯網檔案的目標的歷史價值。我從來沒有打算干擾這個目標,也不是造成任何傷害。”[98]
丹尼爾·戴維迪克(Daniel Davydiuk)
在2013年至2016年之間色情演員名字丹尼爾·戴維迪克(Daniel Davydiuk)試圖從Wayback機器的檔案中刪除自己的存檔圖像DMCA請求向檔案館,然後呼籲加拿大聯邦法院.[99][100][101]然後,這些圖像最終於2017年從網站上刪除。
靈活
在2018年,檔案Stalkerware應用程序Flexispy的網站已從Wayback機器中刪除。該公司聲稱已經聯繫了互聯網檔案館,大概是為了刪除其網站的檔案。[102]
審查制度和其他威脅
Archive.org當前是在中國被阻塞.[103][104]在禁止伊斯蘭國恐怖組織後,互聯網檔案在俄羅斯的整體上被阻止作為該組織的一系列外展視頻,在2015 - 16年度的短時間內。[68][105][106][需要更新]自2016年以來,該網站已經回來了,儘管當地的商業遊說者正在當地法院起訴互聯網檔案,以便以版權的理由禁止該網站。[107]
艾莉森·馬克琳娜(Alison Macrina),主任圖書館自由項目,指出“儘管圖書館員深深地珍視個人隱私,但我們也強烈反對審查制度”。[68]
至少有一個情況下,將其從其原始網站刪除後不久將其從檔案中刪除。一種每日野獸記者寫了一篇文章,該文章在2016年在約會應用程序中以同性戀者的身份擺姿勢,於2016年發表了幾名同性戀奧運會運動員。每日野獸在廣泛的憤怒中遇到文章後,將其刪除;不久之後,互聯網檔案也很快就這樣做了,但強調說,除了保護外出運動員的安全外,他們沒有其他原因這樣做。[68]
其他威脅包括自然災害,[108]破壞(遠程或物理),[109]操縱檔案館的內容(另請參閱:網絡攻擊,備份),有問題的版權法[110]以及對網站用戶的監視。[111]
亞歷山大·羅斯(Alexander Rose),執行董事長期以來的基礎,懷疑從長遠來看,“幾乎一無所有”將以有用的方式生存,並說:“如果我們在技術文明中具有連續性,我懷疑許多裸露的數據將仍然可以找到和可搜索。但是我可疑交付的格式幾乎沒有什麼是可識別的“站點”,因為諸如Drupal,Ruby和Django等內容管理系統的深端很難歸檔。[112]
在一篇關於保存人類知識的文章中,大西洋組織已經評論說,互聯網檔案描述了自己是為了長期建造的[113]“正在努力捕獲數據消失之前,沒有任何長期基礎架構。”[114]
也可以看看
參考
- ^Kahle,Brewster(2005年11月23日)。“通用所有知識的訪問”.互聯網檔案。檢索6月5日,2022.
- ^“存檔副本”.web.archive.org。2022年11月11日。原本的2022年11月11日。
{{}}
:CS1維護:存檔副本為標題(鏈接) - ^Wayback Machine。檢索到2022年10月1日。Wayback Machine。檢索到2022年10月31日。這兩頁顯示一個月內增加了110億頁。這意味著每天的頁面數量增加超過3.5億。
- ^百事可樂,Inc。(1996年5月10日)。“百事可樂主頁”.互聯網檔案/Wayback Machine。檢索10月8日,2022.
- ^“ Wayback Machine一般信息”.Archive.org。存檔原本的2019年12月5日。檢索3月2日,2021.
- ^“ waybackmachine.org whois,dns和域信息 - domaintools”.誰是.存檔從2020年5月14日的原件。檢索3月13日,2016.
- ^“ Internetarchive.org Whois,DNS和域信息 - Domaintools”.誰是.存檔從2020年5月12日的原件。檢索3月13日,2016.
- ^Notess,Greg R.(3月至4月2002年)。“ Wayback Machine:Web的檔案”。在線的.26:59–61。成立:13517724.
- ^“ Wayback Machine”,經常問的問題,存檔從2018年9月18日的原件,檢索9月18日,2018
- ^一個b“任務上有20,000個硬盤驅動器|互聯網檔案博客”.blog.archive.org。 2016年10月25日。存檔從2018年10月20日的原始。檢索10月15日,2018.
- ^格林,希瑟(2002年2月28日)。“與世界一樣大的圖書館”.工作週。存檔原本的2011年12月20日。
- ^朱迪·湯(Tong)(2002年9月8日)。“負責方 - 布魯斯特·卡爾(Brewster Kahle);網絡上的網絡圖書館”.紐約時報.存檔從2011年2月20日的原始。檢索8月15日,2011.
- ^庫克,約翰(2001年11月1日)。“網站將帶您回到互聯網歷史上”.西雅圖後智力師.存檔從2014年8月12日的原始。檢索8月15日,2011.
- ^肯德拉梅菲爾德(2001年10月28日)。“ Wayback回到網上”.有線.存檔從2017年10月16日的原始。檢索10月16日,2017.
- ^一個bcArora,Sanjay K。;李,Yin;Youtie,Jan;菲利普夏皮拉(2015年5月5日)。“使用Wayback機器在社會科學中開採網站:一種方法論資源”.信息科學與技術協會雜誌.67(8):1904– 1915年。doi:10.1002/asi.23503.ISSN 2330-1635.
- ^一個bcdefghLeetaru,Kalev(2016年1月28日)。“互聯網檔案轉20:幕後檔案要存檔網絡”.福布斯.存檔從2017年10月16日的原始。檢索10月16日,2017.
- ^“互聯網檔案:Wayback Machine”.Archive.org.存檔從2014年1月3日的原始。檢索10月15日,2018.
- ^格雷厄姆,馬克(2020年10月30日)。“事實檢查和上下文的Wayback Machine頁面”.互聯網存檔博客。檢索1月17日,2021.
- ^嘗試“現在保存頁面”域,例如tpc.googlesyndication.com或s0.2mdn.net或atdmt.com或adbrite.com結果“此URL在我們的塊列表中,無法捕獲”。
- ^“互聯網檔案25週年 - 普遍訪問所有知識”。檢索1月13日,2022.
- ^“行駛機器•訪問互聯網的未來”.前進機器。檢索1月13日,2022.
- ^卡爾,布魯斯特。“歸檔互聯網”。科學美國人 - 1997年3月。存檔從2012年4月3日的原件。檢索8月19日,2011.
- ^卡普蘭,傑夫(2014年10月27日)。“存檔:一起爬網”.互聯網存檔博客.存檔從2017年10月12日的原始。檢索10月16日,2017.
- ^一個b“全球網絡爬網”。互聯網檔案。存檔從2017年10月19日的原件。檢索10月16日,2017.
- ^一個bc“使用Wayback Machine”.互聯網檔案。檢索4月3日,2022.
- ^“ 13號寬爬行”。互聯網檔案。存檔從2017年10月19日的原件。檢索10月16日,2017.
- ^“太多請求”。互聯網檔案。 2019年11月10日。檢索11月27日,2021.
- ^“互聯網檔案:pepabox”.Archive.org。檢索10月25日,2018.
- ^邁克爾·卡內洛斯(Kanellos)(2005年7月29日)。“便宜的大存儲”。 cnet news.com。存檔原本的2007年4月3日。檢索7月29日,2007.
- ^“互聯網檔案和太陽微型系統創造了互聯網的生活歷史”.太陽微型系統。 2009年3月25日。存檔從2009年3月26日的原件。檢索3月27日,2009.
- ^Mearian,Lucas(2009年3月19日)。“互聯網檔案以揭露大規模的Wayback機器數據中心”。 Computerworld.com。存檔原本的2009年3月23日。檢索3月22日,2009.
- ^“ Beta測試中更新的Wayback Machine”。存檔原本的2011年8月23日。檢索8月19日,2011.
- ^“高級搜索”.Wayback Machine。存檔原本的2010年1月31日。檢索4月3日,2022.
- ^“經典的Wayback機器和新的Beta版本有什麼區別?”。存檔原本的2010年12月25日。檢索11月17日,2021.
- ^“ Beta Wayback Machine,在論壇中”.存檔從2014年4月17日的原始。檢索4月16日,2014.
- ^“互聯網檔案論壇:第六對架子進入服務:超過2pb使用的數據空間”.Archive.org.存檔從2016年10月24日的原始。檢索10月25日,2018.
- ^“ Wayback Machine:現在擁有240,000,000,000 URL | Internet存檔博客”。 2013年1月9日。存檔從2014年4月14日的原始。檢索4月16日,2014.
- ^羅西,亞歷克西斯(2013年10月25日)。“固定互聯網上的斷開鏈接”.Archive.org。美國加利福尼亞州舊金山:收藏團隊,互聯網檔案。存檔來自2014年11月7日的原始。檢索3月25日,2015.
我們已經添加了立即存檔頁面並在Wayback機器中獲取該頁面的永久URL的能力。這項服務允許任何人(Wikipedia編輯,學者,法律專業人士,學生或像我這樣的家庭廚師)創建一個穩定的URL來引用,共享或添加他們希望將來仍然可以訪問的任何信息。
- ^亞歷山大男爵(2013年10月23日)。“現在在線的新互聯網存檔機器”.數字期刊。存檔原本的2020年11月19日。檢索11月19日,2020.
- ^“互聯網檔案經常問問題”.存檔從2009年10月21日的原件。檢索1月17日,2015.
- ^“互聯網檔案經常問問題”。 2014年12月18日。原本的2014年12月18日。檢索12月13日,2018.
- ^Virustotal團隊(2015年3月25日)。“ 207.241.226.190 IP地址信息”.virustotal.com。愛爾蘭都柏林:病毒.存檔從2014年7月14日的原始。檢索3月25日,2015.
2015-03-25:至少一個URL掃描儀或惡意URL數據集檢測到的IP地址中託管的最新URL。... 2/62 2015-03-25 16:14:12 [完整的URL編輯]/renegotiating_tls.pdf ... 1/62 2015-03-25 04:46:34 [完整的url redacted]/cblightsetup.exe.exe.exe.exe.exe.exe
- ^“ Archive.org的安全瀏覽診斷頁”.Google.com/safebrowsing。加利福尼亞州山景城,美國。 2015年3月25日。存檔從2015年4月6日的原始。檢索3月25日,2015.
2015-03-25:在過去的90天中,該網站的一部分被列出了可疑活動138時間。... Google訪問此網站時發生了什麼?...在過去90天內在網站上測試的42410頁中,有450頁導致未經用戶同意下載和安裝惡意軟件。Google上一次訪問該網站的上次是在2015-03-25,最後一次在該網站上發現可疑內容是在2015-03-25。...惡意軟件包括169個特洛伊木馬,126個病毒,43個後門。
- ^“對大數據的操縱能否改變世界的想法?”.全國.存檔從2017年1月12日的原始。檢索5月14日,2017.
- ^克羅基特,扎卡里(2018年9月28日)。“ Inside Wayback Machine,Internet的時間膠囊”.喧囂.存檔從2018年10月2日的原始。檢索10月26日,2018.
- ^弗吉尼亞州赫弗南(2018年9月18日)。“互聯網上的事情破裂和衰敗 - 這是一件好事”.有線.存檔來自2018年9月25日的原始。檢索10月26日,2018.
- ^“捐贈給互聯網檔案:免費和可藉用書籍,電影,音樂和Wayback機器的數字圖書館”。 Adafruit。存檔從2020年12月2日的原始。檢索12月2日,2020.
- ^米歇爾(2014年5月9日)。“ Wayback Machine擊中了4億!”。互聯網檔案。存檔從2014年8月26日的原件。檢索3月25日,2015.
- ^“互聯網檔案”。互聯網檔案。存檔原本的2020年12月31日。檢索3月8日,2021.
- ^“ Archive.org網站信息”.Alexa Internet。存檔原本的2013年10月28日。檢索10月29日,2013.
- ^“ Archive.org網站概述”。 Alexa Internet。存檔原本的2015年4月9日。檢索4月9日,2015.
- ^“ Archive.org交通,人口統計和競爭對手-Alexa”。 2019年3月23日。原本的2019年3月23日。檢索4月5日,2019.
- ^“ Wayback Machine API | Internet存檔”.Archive.org.
- ^Waybackpy上github
- ^“開發人員”.
- ^“互聯網檔案中公共API的文檔”。 2018年12月13日。
- ^“某些網站由於robots.txt或其他排除而無法使用”。存檔原本的2011年4月15日。
- ^“互聯網檔案經常問問題”。存檔原本的2014年4月17日。
- ^考克斯,約瑟夫(2018年5月22日)。“ Wayback機器正在刪除出售給纏擾者的惡意軟件的證據”.存檔從2018年5月23日的原件。檢索5月23日,2018.
- ^“ Robots.txt適用於搜索引擎對網絡檔案的運作不佳”.互聯網檔案。 2017年4月17日。檢索6月29日,2019.
- ^“管理刪除請求和保留檔案完整性的建議”.加利福尼亞大學。 2002年12月14日。存檔來自2017年9月18日的原始。檢索9月14日,2017.
- ^“追溯機器人。。互聯網檔案。 2014年7月7日。存檔從2017年10月10日的原始。檢索9月14日,2017.
- ^格雷厄姆,馬克(2017年4月17日)。“ Robots.txt適用於搜索引擎對網絡檔案的運作不佳”.互聯網存檔博客.存檔從2017年4月17日的原始。檢索4月16日,2017.
- ^“ Archivierung des Internet:Internet存檔IgnoriertKünftigRobots.txt”(在德國)。 Heise在線。存檔從2017年4月27日的原件。檢索5月14日,2017.
- ^“ Suchmaschinen:Internet檔案將使KünftigRobots.txt-Inträgeignorieren - golem.de”(在德國)。存檔來自2017年6月19日的原始。檢索5月14日,2017.
- ^“ Internet存檔將忽略robots.txt文件以保持歷史記錄準確”。數字趨勢。 2017年4月24日。存檔從2017年5月16日的原始。檢索5月14日,2017.
- ^Sampath Kumar,B.T。;Prithviraj,K.R。(2014年10月21日)。“使生命死了:Wayback Machine在檢索消失的URL中的作用”。信息科學雜誌.41(1):71–81。doi:10.1177/0165551514552752.ISSN 0165-5515.S2CID 28320982.
- ^一個bcde“ Wayback Machine不會審查檔案,導演在奧運會文章擦洗後說”.存檔從2017年1月6日的原始。檢索5月14日,2017.
- ^萊珀,吉爾(2015年1月26日)。“網絡昨天說什麼”.紐約客.存檔從2015年1月25日的原件。檢索5月14日,2017.
- ^“科學遊行始於此人的'Reddit上的'丟人線'.華盛頓郵報.存檔來自2017年4月23日的原始。檢索4月23日,2017.
- ^“科學家要去華盛頓進軍嗎?”.華盛頓郵報.存檔從2017年1月31日的原始。檢索1月31日,2017.
- ^弗利,凱瑟琳·埃倫。“全球科學遊行始於單個reddit線程”.石英.存檔從2017年4月24日的原始。檢索4月23日,2017.
- ^格雷厄姆,馬克(2018年10月1日)。“維基百科上有超過900萬個斷開的鏈接現已被救出”.
- ^格雷厄姆,馬克(2020年9月17日)。“ Cloudflare和Wayback機器,與更可靠的網絡聯合起來”.互聯網存檔博客。檢索9月17日,2020.
- ^“互聯網檔案經常問問題”.互聯網檔案。 2014年4月2日。原本的2014年4月2日。檢索11月23日,2018.
- ^一個b貝茨,瑪麗·埃倫(Mary Ellen)(2002)。“ Wayback Machine”。在線的.26:80。
- ^“ YouTube -Archiveteam”.Archiveteam.org.存檔從2020年8月5日的原件。檢索8月6日,2020.
- ^“互聯網檔案經常問問題”.Archive.org.存檔從2013年4月20日的原始。檢索10月18日,2018.
- ^一個bc勞埃德,霍華德(2009年10月)。“下令禁用機器人.txt”(PDF)。存檔原本的(PDF)2019年8月8日。檢索10月15日,2009.
- ^科爾特斯,安東尼奧(2009年10月)。“反對拆除機器人的運動”。存檔原本的2010年10月27日。檢索10月15日,2009.
- ^Gelman,Lauren(2004年11月17日)。“互聯網檔案的網頁快照可作為證據”.數據包.2(3)。存檔原本的2011年4月30日。檢索1月4日,2007.
- ^Howell,Beryl A.(2006年2月)。“證明網絡歷史:如何使用互聯網存檔”(PDF).互聯網法雜誌:3–9。存檔原本的(PDF)2010年7月5日。檢索8月6日,2008.
- ^“在虛擬地方尋找互聯網證據的證據”.存檔來自2019年7月1日的原始。檢索6月14日,2020.
- ^Levitt,Carole A。;Rosch,Mark E.(2010)。查找諸如Pro之類的信息:挖掘互聯網的公開資源進行調查研究,湯姆1。美國律師協會。第194-196頁。ISBN 978-1-60442-890-2.存檔從2020年12月18日的原始。檢索6月14日,2020.
- ^Wynn W. Coggins(2002年秋季)。“商業方法專利領域的先前藝術 - 電子文檔何時是出於藝術目的的印刷出版物?”.USPTO。存檔原本的2012年9月21日。檢索8月15日,2012.
- ^“揭穿Wayback Machine”。存檔原本的2010年6月29日。
- ^巴爾,馬丁(2002)。“ Wayback Machine和Google Cache -Eine Verletzung Deutschen Urheberrechts?”.朱爾普(德語):9。doi:10.7328/jurpcb/20021719.存檔來自2009年8月23日的原始內容。
- ^“互聯網存檔常見問題解答”.存檔從2014年4月17日的原始。檢索4月16日,2014.
- ^鮑曼(Lisa M)(2002年9月24日)。“淨檔案沉默科學批評家”。 cnet news.com。存檔原本的2012年5月15日。檢索1月4日,2007.
- ^傑夫(2002年9月23日)。“從Wayback機器中排除”(博客).Wayback Machine論壇。互聯網檔案。存檔從2007年2月11日的原始。檢索1月4日,2007.作者和日期表示論壇線程的啟動.
- ^米勒,歐內斯特。“謝爾曼,為科學學設定Wayback機器”.立法。耶魯大學法學院。存檔原本的(博客)2012年11月16日。檢索1月4日,2007.
- ^Dye,Jessica(2005)。“網站起訴到過去有爭議的互聯網旅行”。生氣。 28。11:8–9。
- ^埃里克·班曼(Bangeman)(2006年8月31日)。“ Internet檔案安置在Wayback Machine上”.ARS技術.存檔從2007年11月5日的原始。檢索11月29日,2007.
- ^一個bInternet Archive訴Shell,505 F.Supp.2d 755在Justia.com上,1:2006CV01726(科羅拉多州地方法院2006年8月31日)(“'2007年4月25日宣布的和解協議。
- ^一個bBabcock,Lewis T.,首席法官(2007年2月13日)。"Internet Archive訴Shell民事訴訟編號06CV01726LTBCBS“(PDF).存檔(PDF)從2014年1月25日的原件。檢索3月25日,2015.
1)Internet檔案駁回了殼牌轉換和民事盜竊的反訴(第二訴原因)的動議,2)互聯網檔案駁回殼牌違反合同的反訴(第三條訴訟因由)的動議被拒絕;3)Internet檔案駁回了Rico和Cocca(第四訴原因)在Rico和Cocca下駁回殼牌的反訴動議。
- ^克拉本,托馬斯(2007年3月16日)。“科羅拉多州的女人起訴抓住網絡爬行者合同”。紐約,紐約,美國:信息週,UBM Tech,UBM LLC。存檔從2014年9月4日的原始。檢索3月25日,2015.
計算機可以代表人員簽訂合同。《統一電子交易法》(UETA)說,即使沒有人意識到或審查了電子代理的行為或由此產生的條款和協議,就可以通過當事方的電子代理的相互作用來形成“合同”。
- ^Samson,Martin H.,Phillips Nizer LLP(2007)。“ Internet Archive訴Suzanne Shell”.InternetLibrary.com。法律和法院的互聯網圖書館決定。存檔從2014年8月3日的原始。檢索3月25日,2015.
更重要的是,舉行法院,僅僅是殼牌檔案的複制殼網站,並在其數據庫中展示,這並不構成對被告財產的必要行使。重要的是,法院指出,被告在所有時間擁有並經營自己的網站。法院說:“殼牌未能指控事實表明互聯網檔案行使了自治領或對其網站的控制權,因為殼牌的投訴明確指出,在Wayback Machine上存檔時,她繼續擁有並操作該網站。殼牌沒有任何權限支持複製文檔本身足夠剝奪用途來支持轉換的觀念。相反,許多電路已經確定不是。
- ^布魯斯特(2007年4月25日)。“互聯網檔案和蘇珊娜·殼牌定居訴訟”.Archive.org。美國科羅拉多州丹佛市:互聯網檔案。存檔從2010年12月5日的原始。檢索3月25日,2015.
雙方都真誠地遺憾訴訟可能造成的任何動盪。互聯網檔案館和殼牌女士都沒有寬容任何可能造成公眾關注此訴訟的一方造成傷害的行為。當事方沒有從事這種行為,並要求公眾對本訴訟的友好解決方案的回應與他們的意願一致,即對任何一方都不會進一步的傷害或動盪。
- ^理查德·斯托布(Stobbe)(2014年12月5日)。“被遺忘的權利”的“版權含義”或如何刪除互聯網存檔”.蒙達克.存檔來自2018年11月18日的原始。檢索3月8日,2019.
- ^麥克維,格倫尼(2014年10月16日)。菲爾波特,詹姆斯;魏斯曼,亞當;Bucholz,Ren;水壺,布倫特;珍珠,亞倫(編輯)。“ Davydiuk訴Internet Archive Canada,2014 FC 944”.canlii.加拿大法律協會聯合會.存檔從2020年12月18日的原始。檢索3月8日,2019.
- ^Richard F. Southcott(2016年11月30日)。菲爾波特,約翰;阿爾頓,亞歷克斯;Bucholz,Ren(編輯)。“ Davydiuk訴Canada Internet Archive and Internet Archive,2016 FC 1313(Canlii)”.canlii。安大略省渥太華:加拿大法律協會聯合會.存檔來自2019年6月29日的原始。檢索3月8日,2019.
- ^考克斯,約瑟夫(2018年5月22日)。“ Wayback機器正在刪除出售給纏擾者的惡意軟件的證據”.副.存檔從2022年1月24日的原件。檢索1月24日,2022.
- ^康格,凱特。“支持加拿大互聯網的歷史以拯救特朗普”.TechCrunch.存檔來自2016年12月27日的原始。檢索5月14日,2017.
- ^“在哪裡可以找到網上消失的東西,還有很多:互聯網檔案”。國際公共廣播電台。存檔從2017年3月28日的原件。檢索5月14日,2017.
- ^奇爾格溫,理查德。“在俄羅斯沒有後衛:普京阻止Archive.org”.寄存器.存檔從2016年10月7日的原始。檢索5月14日,2017.
- ^“俄羅斯不會走路,阻止互聯網檔案”。數字趨勢。 2015年6月26日。存檔來自2016年4月17日的原始。檢索5月14日,2017.
- ^“â€р栓函.°(俄語)。 2016年4月18日。存檔從2019年4月5日的原件。檢索10月18日,2020.
- ^“幫助我們保持檔案免費,可訪問和讀者私人|互聯網檔案博客”。 2016年11月29日。存檔從2017年5月21日的原件。檢索5月14日,2017.
- ^Sakr,Sharif(2013年11月7日)。“ Wayback Machine Web檔案存活了破壞性的火災,但需要幫助才能恢復”。存檔原本的2020年11月9日。檢索4月3日,2022.
- ^“互聯網檔案:提議對DMCA的更改將使我們“審查網絡”"。消費主義者。 2016年6月7日。存檔來自2016年11月11日的原始。檢索5月14日,2017.
- ^赫伯,烏爾里希。“死去的特朗普 - 安格斯特格拉斯”(在德國)。 Heise在線。存檔來自2016年12月7日的原始。檢索5月14日,2017.
- ^Lafrance,Adrienne(2015年10月14日)。“互聯網的黑暗時代”.大西洋組織.存檔從2017年5月7日的原件。檢索5月14日,2017.
- ^“整個互聯網將在加拿大歸檔以保護特朗普”。母板。 2016年11月29日。存檔從2017年5月16日的原始。檢索5月14日,2017.
- ^Lafrance,Adrienne(2016年6月3日)。“人類對完全知識的恐懼”.大西洋組織.存檔來自2016年12月2日的原始。檢索5月14日,2017.
外部鏈接
- 官方網站
- 互聯網歷史很脆弱。這個檔案確保它不會消失。舊金山:PBS Newshour。存檔原本的2022年1月6日。檢索9月19日,2018.