Jak pracownicy Internet Archive skanują 3 500 książek dziennie?

70 operatorów skanerów, 18 placówek i 28 milionów zeskanowanych książek – Internet Archive to największy projekt skanowania książek na świecie. Poznaj zasady jego działania, misje oraz osiągnięcia.

Zeskanowane książki w Internet Archive

Projekt Internet Archive

Czy przerzucanie kartek starych książek wydaje Ci się ekscytujące? A co powiesz na 3 miliony kartek? Właśnie tyle stron zeskanowała w ciągu ostatnich 10 lat Eliza Zhang. Pracująca dla Internet Archive specjalista wykorzystywała w tym celu narzędzie Scribe. Jest to specjalny skaner, który został wynaleziony przez inżynierów Internet Archive ponad 15 lat temu.

Słuchając piosenek R&B z lat siedemdziesiątych i osiemdziesiątych, Eliza każdego dnia poświęca sporo czasu na czytanie książek, którymi właśnie się zajmuje. Jej najbardziej wymagające zadanie? Praca z bardzo starymi, delikatnymi książkami – wyjaśnia Wendy Hanamura na blogu Internet Archive.

Kategorie zeskanowanych materiałów w Internet Archive
Kategorie zeskanowanych materiałów w Internet Archive

Kruchość oraz różnorodność milionów skanowanych przez Zhang egzemplarzy pozwala zrozumieć, dlaczego tego typu praca nie została zautomatyzowana. W Internet Archive pracuje ok. 70 innych operatorów Scribe. Czyste, suche ludzkie dłonie najlepiej sprawdzają się do przerzucania stron – wyjaśnia Andrea Mills, jeden z liderów zespołu cyfryzacji książek. Naszym celem jest zeskanowanie książki za jednym zamachem z zachowaniem należytej troski o jej stan – dodaje kobieta.

Skanowanie książek w Internet Archive

Podnoszenie szklanej warstwy za pomocą nożnego pedała, obsługa dwóch kamer oraz skanowanie kartek to dopiero początek pracy Elizy. Niektóre książki, jak np. publikacja Bureau of Land Management ukazana na filmie, posiadają mnóstwo dużych, kilkukrotnie złożonych stron. Eliza musi oznaczać fragmenty książek kawałkami papieru, aby później do nich powracać i skanować złożone strony, jednocześnie umieszczając ich numery na odpowiedniej liście. Ta praca wymaga dużej koncentracji.

Jeżeli osoba odpowiedzialna za skanowanie książek przypadkowo przeoczy jakąś stronę lub zrobione przez nią zdjęcie okaże się niewyraźne, specjalnie oprogramowanie, które zostało stworzone przez naszych inżynierów, wyśle jej wiadomość, aby powrócić do Scribe i zeskanować odpowiednie strony od nowa.

Misja projektu Internet Archive

Nie jest to zajęcie dla ludzi, którzy szybko się nudzą. Wymaga ono koncentracji i miłości do książek – podkreśla założyciel Internet Archive Brewster Kahle. Żmudny proces skanowania pozwala osobom zatrudnionym w Internet Archive zachować wartościowe książki w zbiorach online, jednocześnie nie uszkadzając ich fizycznych egzemplarzy.

Nie dzielimy książek na osobne kartki – wskazuje Kahle. Jego pracownicy posługują się metodą, która pozwoliła im podjąć współpracę z setkami instytucji na całym świecie oraz zeskanować 28 milionów tekstów w ciągu ponad dwóch dekad. Niektóre z książek są rzadkie i cenne, inne uznano natomiast za pozbawione większej wartości. Co ciekawe, Internet Archive pozwala uratować wiele książek, które w przeciwnym razie skończyłyby w koszu na śmieci – wyjaśnia Chris Freeleand z Internet Archive.

Zeskanowane książki w bazie Internet Archive
Zeskanowane książki w bazie Internet Archive

Jako przykład Freeland przywołuje w tym kontekście The Dictionary of Costume, jedną z milionów publikacji, które przestały być wydawane jeszcze w XX wieku. Jest to pozycja, z której chętnie korzystają autorzy artykułów na Wikipedii, a także studenci na całym świecie. Internet Archive zabezpieczyło i udostępniło w sieci treść jednego z ostatnich egzemplarzy książki, zyskując gwarancję, że redaktorzy Wikipedii oraz naukowcy już zawsze będą w stanie z niej korzystać. Jeżeli możliwość sprawdzenia definicji słowa petticoat w książce, która już od dawna nie jest wydawana, nie robi na Tobie wrażenia, powinieneś pamiętać, że Internet Archiwe skanuje codziennie ok. 3 500 książek każdego dnia w 18 różnych placówkach.

Znaczenie informacji we współczesnym świecie

Zdaniem Alistair Blacka, emerytowanego profesora nauk o informacji na Uniwersytet Illinois, znaczenie bibliotek w czasach aktualnego światowego kryzysu dodatkowo wzrosło. Pandemia koronawirusa spowodowała, że biblioteki publiczne stanęły przed jednym z większych wyzwań w swojej historii. Istotny element globalnego kryzysu stanowią utrudnienia w dostępie do wiarygodnych informacji.

Pracownicy Internet Archive, którzy zajmują się skanowaniem książek, odgrywają bardzo ważną rolę w pielęgnowaniu zgromadzonej w przeszłości wiedzy. Jak wskazuje Kahle, skanowane przez nich materiały są kluczowe dla edukowania dobrze poinformowanej populacji w czasie wielkich problemów z dezinformacją.

Podgląd zeskanowanej książki w bazie Internet Archive
Podgląd zeskanowanej książki w bazie Internet Archive

W odpowiedzi na pytanie, co najbardziej lubi w swojej pracy, Zhang oznajmia: Wszystko! Wszystko wydaje mi się interesujące. Każda publikacja wydaje mi się ważna.

W kolekcji Internet Archive znajduje się obecnie 20,000,000 darmowych książek i innego rodzaju tekstów. Dostęp do materiałów możemy uzyskać online.

Proces skanowania książek w Internet Archive

Autor: Kuba
Źródło: OpenCulture.com

Powiązane treści:

Leave a Reply

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *