Я хочу підняти ставки. Якщо у вас велика колекція документів, я оцифрую її для вас безкоштовно (ви платите за висновок), за однієї умови: щоб ми негайно зробили дані публічно доступними.
Соціальні науковці, які працюють із матеріалами, що потребують оцифрування, можуть вивчати лише те, що можуть читати машини. На практиці це означає надруковані латинські документи з добре фінансованих архівів. У новому робочому документі я показую, що Vision Language Models з використанням zero-shot перевершують усі існуючі OCR-системи в кожному оціненому скрипті, і пропоную конвеєр для їх розгортання на нових колекціях. Я застосовую його до шести архівних колекцій, що охоплюють 1,8 мільйона сторінок у шести країнах за ціною менш ніж $1,900.
Соціальні науковці, які працюють із матеріалами, що потребують оцифрування, можуть вивчати лише те, що можуть читати машини. На практиці це означає надруковані латинські документи з добре фінансованих архівів. У новому робочому документі я показую, що Vision Language Models з використанням zero-shot перевершують усі існуючі OCR-системи в кожному оціненому скрипті, і пропоную конвеєр для їх розгортання на нових колекціях. Я застосовую його до шести архівних колекцій, що охоплюють 1,8 мільйона сторінок у шести країнах за ціною менш ніж $1,900.