Beobaxter (beobaxter) wrote,
Beobaxter
beobaxter

А тем временем "во всем мире"...

Количество текстов в электронной библиотеке Universal Library превысило 1,5 миллиона

  Руководители проекта Universal Library по созданию крупнейшей в мире электронной библиотеки из Университета Карнеги-Мелона сообщили, что количество отсканированных книг в базе превысило 1,5 миллиона экземпляров. При этом значительную часть составляют тексты на китайском языке. Ежедневно в базу добавляется несколько тысяч новых текстов.
  Как справедливо отмечает один из руководителей проекта, профессор в области информатики и робототехники Рэй Редди, база Universal Library могла бы составить конкуренцию обширной библиотеке любого крупного университета.
  Текущий этап по оцифровке текстов носит название Million Book Project и был начат в 2002 году, когда группа Редди отсканировала первую тысячу книг. Большую часть работы по сканированию в последние годы выполняют добровольцы в Индии и Китае. Частично проект спонсируется рядом крупных компании ИТ-индустрии и Национальным научным фондом США, который недавно выделил 3,5 миллиона долларов. Свою лепту также внесли власти США, Китая и Индии, пожертвовашие на нужды проекта по десять миллионов долларов США.
  Примерно около половины книг являются общественным достоянием, либо были размещены в библиотеке с разрешения правообладателей. Отсканированы также отрывки некоторых текстов, защищенных законом об авторском праве, однако авторы проекта убеждены, что в конце концов станут доступны их полные версии.
  В настоящее время в библиотеке содержатся тексты на двадцати языках, включая 970000 на китайском, 360000 на английском, 50000 на телугу и 40000 на арабском, сообщает Associated Press.

  Я там был, мед-пиво пил скачал на пробу пару десятков страниц - в отличие от известного проекта ГУТЕНБЕРГ, документы хранятся не в текстовом виде, а в форматах TIF и DjVu (там же предлагают к скачиванию и средства просмотра ;). Некоторые из полученных мной страниц сканированы откровенно плохо:

Перекос
с перекосом

Обрезано!
с обрезанием части текста

Но именно что - некоторые, общая доля брака довольно мала! Языки: Chinese, English, Arabic, Bengali, Telugu, Kannada, Tamil, Hindi, Sanskrit, Persian, Marathi, Urdu - русского (пока?) нет, увы.
Tags: копиразмы
Subscribe

Recent Posts from This Journal

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 7 comments