ウェブも収集する

【NET】“消えた”ウェブサイトを後世に…国立国会図書館の取り組み (常識的に考えた)

民間のArchiveサービスと比べると日本語情報に特化して
安定的に運用されるという意味では信頼できるのかもしれないけど、
集めるだけ集めて「公開の許諾」を得られたものだけ
Warpのサイトで閲覧可にするって…なんかすごく無駄感があるな。

国や自治体、独立行政法人や大学などのサイトとのことで
個人のしょーもないページまでは拾っていないんだろうけど、
情報の質によってはその他として拾いに来たりするのかな？

これまでに集めたデータ量が700テラバイトねぇ、
差分だけでなく丸ごと取り込んでるんじゃないかって気もするけど
高い信頼性で保存するとなると結構なコストが掛かりそうな。
データを拾うサイトの選別なんかは人力だろうし…