PDA

نسخه کامل مشاهده نسخه کامل : گفتگو با بروستر کال، مبدع ماشين عقب گرد، آرشيو 7 ساله اينترنت



mahan
19-12-2004, 09:22
گفتگو با بروستر کال، مبدع ماشين عقب گرد، آرشيو 7 ساله اينترنت


[ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]

کهنه چين؟ بيکار؟ اميدوار به زندگي؟ يا نگران حفظ ميراث بشريت؟ علاقه مند به جاودانگي ديجيتال و طرفدار پروپاقرص روز مبادا؟
شما کدام صفت را براي کسي که با دار و دسته اش از 1996 تا حالا، کل صفحات اينترنت را هر 60 روز يک بار، ضبط و آرشيو کرده و اين 10 ميليارد صفحه را در دسترس رايگان هم قرار داده انتخاب مي کنيد؟
شوخي نمي کنم. يک نفر واقعا اين کار را کرده ، يک نفر که اسمش بروستر کال (BrewsterKahle) است. در دانشگاه دانش کامپيوتر خوانده و تا به حال 100 هزار گيگابايت ناقابل را صرف ذخيره اطلاعاتي کرده که خيلي از آنها احتمالا تا به حال حذف شده اند و روح نويسندگانشان هم از وجود آنها در جايي روي اين کره خاکي بي خبر است.
اگر مي خواهيد بيشتر از کار و انگيزه اين آدم سر دربياوريد، متن زير که خلاصه مصاحبه مجله Newscientist با اوست ، متن بدي نيست. نشاني آرشيو را مي خواهيد؟ معلوم است ديگر: [ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ]


چرا بايد کسي چنين کاري را بکند؟
وب سايت ها مثل شنهاي روان هستند. عمر متوسط يک صفحه وب 100 روز است. پس از اين مدت يا تغيير مي کند يا ناپديد مي شود؛ بنابراين جامعه روشنفکر ما روي شن بنا شده است.
نمي توانيد جوابگوي مردم باشيد؛ وقتي مثلا وعده وعيدهايي که سياستمداران روي شبکه مي دهند، پس از انتخابات ديگر موجود نباشد.
همين طور اگر يک محقق ، دانشگاهي را ترک کند و وب سايتش از روي شبکه پاک شود، مقالات آکادميک کليدي ممکن است از دسترس خارج شوند.
اين طور که ما فهميديم ، وب سايت خيلي از پروژه هاي عمومي که مردم پولش را داده اند، يک سال نشده غيب مي شود.
اين يعني ما به عنوان ماليات دهنده ، روي پروژه هاي تحقيقاتي ، سرمايه گذاري مي کنيم اما براي يک کتابخانه وب که آنها را سازماندهي کند و در دسترس نسلهاي آينده قرار دهد، کاري انجام نمي دهيم.
ماشين عقب گرد (Way Back Machine) اولين تلاش براي اين کار است.

ولي خيلي از چيزهاي روي شبکه نامعتبر است. اينها براي نسلهاي آينده چه اهميتي دارد؟
تمام نکته مجموعه هاي کتابخانه اي جامع اين است که کسي نمي تواند پيشاپيش بگويد چه چيزي مهم خواهد بود. وب ، رسانه مردم است. نخبه گرا نيست. هر کسي مي تواند هر چيزي را رويش منتشر کند؛ بنابراين خوب و بد و زشت ، همه کنار همند.
اين يعني خود ما و بخش جالب قضيه همين است ، مثلا خيلي از کتابخانه ها، الان براي کارهاي شجره نامه اي استفاده مي شوند. خود شما براي يک ويدئو کليپ از مادر و مادربزرگتان چقدر حاضريد بدهيد؟ من که خيلي مي دهم.
ممکن است زياد تماشايش نکنم ، اما دوست دارم بدانم او چه کسي بوده است.

پس از 11 سپتامبر، به شما دستور ندادند بعضي سايتها را از آرشيو خارج کنيد؟ مثلا آنها که حاوي اطلاعات نيروگاه هاي هسته اي امريکا بودند؟
بله. چيزهايي بود که بايد برداشته مي شد، ولي همچنان فکر مي کنم ما محتويات اساسي يک کتابخانه ديجيتال بزرگ را داريم.
اين قضيه در سطوح ديگر هم وجود دارد چون کلي صفحه وب شخصي روي شبکه هست و ممکن است اين صفحه ها حاوي عکس همسر شما باشند که خب چند سال بعد ممکن است بشود همسر سابقتان.
اگر نويسندگان اصلي يک صفحه تقاضا کنند که آن را نگه نداريم ، ما هم از آرشيو حذفش مي کنيم.

سايتهاي پولي چطور؟
ما سايتهاي پولي يا آنهايي که رمز عبور مي خواهند را ضبط نمي کنيم.

ولي با اين کار، يکي از دو طرف داستان را از دست مي دهيد. آيا دنياي اطلاعات دو تکه است ، تکه مجاني و تکه پولي؟
شايد. ولي آرشيوهايي از اطلاعات تجاري همين حالا هم وجود دارد. مثل يک کتابخانه سنتي است. يا پول دسترسي به اطلاعات را مي دهيد يا فقط مي توانيد تماشايش کنيد. اين دنياي قديم است و ديگر خسته و فرسوده شده.
آرشيوها، رسانه مردم است و هر کس هر جا که باشد مي تواند از آن استفاده کند. يک سايت پولي مثل Lexis Nexisچند تا مشترک دارد؟ از گوگل چند نفر استفاده مي کنند؟ شما ترجيح مي دهيد در کدام يک ، چيزي منتشر کنيد؟

شما نسخه هاي قبل از چاپ بعضي مقالات علمي را در اختيار داريد، در حالي که سايت مجلاتي که فقط به مشترکان سرويس مي دهند و حاوي نسخه هاي نهايي آن مقالات هستند را نداريد. درست است؟
ما واقعا هنوز با دنياي آکادميک وارد معامله نشده ايم. آنها خودشان خوب از پس کارهاي خودشان بر مي آيند. من واقعا ناشران چاپي را به خاطر روش نگهداري محصولاتشان تحسين مي کنم ، اما خانه هاي نشر تا ابد پايدار نمي مانند و علاقه آنها براي نگهداري چيزهايي که سود تجاري ندارد هم محدود است.
پولي که از مردم براي کتابخانه ها گرفته مي شود به همين درد مي خورد. سيستم کتابخانه عمومي در امريکا سالي 25ميليارد دلار بودجه مي گيرد. اين پول زيادي است. 5 تا 6ميلياردش براي خريد کتاب به ناشران پرداخت مي شود.
ما مي توانيم با بخش کمي از اين پول ، کار خيلي بهتري بکنيم. يعني کتابهاي کلاسيک و شاهکارهاي ادبي را در دسترس هر بچه اي قرار بدهيم. حالا با آرشيو من يا هر چيزي شبيه آن.

حجم اين آرشيو الان چقدر است؟
بيشتر از 100 ترابايت (100هزار گيگابايت) که اگر به صورت متن کتابي در آورده شود، 3000 مايل قفسه را پر مي کند و البته ماهي هم 10 ترابايت به آن اضافه مي شود.
فقط خريدهارد ديسک و ديگر سخت افزارهاي ذخيره داده در هر ماه براي ما 40 هزار دلار هزينه دارد. سال آينده قيمت همين حجم هارد درايو نصف مي شود، اما در عوض مقدار داده هايي که بايد آرشيو کرد دو برابر يا بيشتر شده است.

حالا اين ماشين عقب گرد چه شکلي هست؟
150 تا کيس پي سي استاندارد با 4 درايو در هر کدام و طوري کنار هم چيده شده که کمي به يک قفسه کتاب مي ماند.

و آرشيوتان از نظر فيزيکي کجاست؟
در 3 نقطه ، 2 کپي در سانفرانسيسکو و يکي هم در کتابخانه جديد اسکندريه مصر.
اگر از مردم بپرسيد درباره کتابخانه بزرگ اسکندريه چي مي داني؟ بيشترشان مي گويند هموني نبود که سوخت؟
اين يعني يک کپي کافي نيست. از مجموعه هايي که در تعريف فرهنگ ها واقعا اهميت دارند بايد به طور ويژه محافظت کرد.

فکر مي کنيد ماشين هاي عقبگرد ديگري هم وجود خواهد داشت!
ما تنها بازيگر شهر نخواهيم بود. دوست داريم بخشي باشيم از شبکه اي از کتابخانه ها و آرشيوها که همه باهم همکاري مي کنند. فکر مي کنم پرسش ديگر اين نيست که ميراث ديجيتال را بايد حفظ کرد يا نه ، پرسش سر چگونگي آن است و از ديد من ، نکته اصلي اين وسط دسترسي است. به فرض BritishLibrary، صفحه هاي وب بريتانيا را جمع آوري کند، قرار است اينها فقط درون کتابخانه در دسترس مردم باشد؟
حالا ديگر دوره اي شده که مردم روي وب ، دنبال چيزها مي گردند و اگر آنجا نباشد، معني اش اين است که اصلا وجود ندارد.
پس تلاش براي اين که بهترين کارهاي موجود را روي شبکه ارائه کنيم ، از ديدگاه کتابخانه اي اهميت دارد.

از کجا وارد دنياي رايانه شديد؟
من واقعا خيلي زود درگير رايانه ها شدم ، يکي از رفقا در دبيرستان ، کامپيوتري براساس منطق ترانزيستوري ساخت.
براي يک بچه گوشه گير شهرستاني ، کار گنده اي بود. من هم رفتم که در MIT، دانش کامپيوتر بخوانم و آنجا بود که به رمزنگاري و کتابخانه هاي ديجيتال علاقه مند شدم.
پس از فارغ التحصيلي در سال 1982، دني هيلز - استادم در - MIT را در راه انداختن شرکتي به اسم ماشين هاي متفکر که رايانه هاي موازي سريع مي ساخت کمک کردم.
ما يکي از اولين موتورهاي جستجو را براي سرويس خبري داو جونز ساختيم که هر لغتي را ميان صدها روزنامه و جمله ، پيدا و ايندکس مي کرد.
پس از ساختن اين کامپيوترهاي بزرگ ، من واقعا انتظار داشتم ، خورشيد با رنگ ديگري بالا بيايد. فکر مي کردم حالا که ما اين همه اطلاعات بامزه و جالب را بيرون کشيده ايم ، دنيا روشن خواهد شد؛ اما معلوم شد بيشتر اطلاعات هنوز با کاغذ جابه جا مي شوند.
بنابراين سيستمي ابداع کردم به نام WAIS (سرور اطلاعات گسترده) که اولين سيستم انتشاراتي اينترنتي بود. خب خيلي زود با آمدن گوفر و بعد www و موزائيک فراموش شد.

آرشيو کردن يک شبکه ، کار عظيمي است. پولش را از کجا مي آوريد؟
من همزمان با اين کار يک شرکت تجاري به اسم Alexa internet براي کاتالوگ کردن وب سايت ها، راه انداختم.
Alexa يک سرويس مجاني است که در مرورگرهاي شبکه جا داده مي شود و حالا به شرکت آمازون تعلق دارد. مي بينيد که به تامين بودجه آرشيو کمک مي کنم.
خيلي هاي ديگر هم کمک مي کنند. سازمان هاي خصوصي و آرشيوهاي قديمي مثل اسميتسونيان و کتابخانه کنگره «يک بودجه 4 ساله يک ميليون دلاري هم از بنياد ملي دانش گرفته ايم.»

از نظر نرم افزاري و سخت افزاري ، روش نگهداري تان چقدر قابل اعتماد است؟
ما تا به حال دو بار قالب آرشيومان را نو کرده ايم. اول با نوارهاي ديجيتال شروع کرديم ، اما ديديم کند، گران و نامطمئن هستند. سال 96 و 97 و 98 را روي نوار ذخيره کرديم. سال 99 بود که تازه سراغ هارد درايو رفتيم و حال داريم از نسل جديدهارد درايوها استفاده مي کنيم.
ديسک درايوها يک آهنگ ويراني مشخص دارند؛ بنابراين وقتي درايوهاي بزرگتر وارد بازار مي شوند، داده ها را روي درايوهاي جديد کپي مي کنيم. اما قديمي ها را هم نگه مي داريم.
ما زماني شروع به استفاده از ديسکها کرديم که تازه به 16 گيگابايت رسيده بودند. حالا داريم درايوهاي 300گيگابايتي مي خريم و درايوهاي 500 گيگابايتي امروز و فردا ممکن است از راه برسند.
اين مهندس ها را که مي شناسيد؟