Conversation

Ангел Предохранитель

@voidcat @rf Anna's archive

0
0
0

@voidcat @rf скачать нейронку пожирнее будет полезней, чем все подряд. Если у тебя нет конкретных планов как ты будешь использовать терабайты скачанного, то это просто цифровой хлам.

1
0
0

@lenka @rf а так у меня не будет возможности проверить, не галлюцинирует ли нейронка. я бы не доверяла нейронке в серьёзных вещах, не проверяя за ней. может быть чревато

1
0
0

@voidcat @rf википедия тоже врёт 🤷‍♂️

1
0
0

@lenka @rf мне просто neocat_googly_shocked , когда люди предпочитают по сути улучшенный т9 собранию множества знаний человечества, которое было написано реальными людьми и подкреплено источниками

3
0
0

@voidcat базы научных работ

0
0
0

@voidcat @rf
Не драматизируй сверх меры.

по сути улучшенный т9

Это не так.

собранию множества знаний человечества, которое было написано реальными людьми и подкреплено источниками

А с достоверностью такие же проблемы. Ссылаться на педивикию моветон не просто так.

0
0
0
@voidcat @rf @lenka

Мало того, нейронки комбинируют свои ошибки с враньём из интернета.

Нейронка которая яндекс отзывы собирала в красивый обзор наслушалась как люди путают "границу с литвой" с "границей с латвией", и выдала "границу между литвой и латвией".

А на Grokpedia статья про художника David Revoy говорит что он рисует комикс про ведьму и её чёрного кота, хотя любой кто хоть раз не посмотрит на его сайт заметит что кот рыжий, а "чёрный кот ведьмы" это просто клише/стереотип который нейронка добавила от балды.
1
0
0

@tiredbun @rf @voidcat по этому LLM и не спрашивают о фактах.

1
0
0
@lenka @rf @voidcat

Но тогда зачем советовать нейронку человеку который хочет скачать архив информации, причём позиционируя его как "вместо"?
0
0
0
@voidcat @rf

Кстати есть kiwix и у них есть формат сжатых архивов, возможно он удобен в плане того что он сжат и потом открывать архивы можно в kiwix и расшаривать их можно. И у них есть помимо википедии всякие другие вики и документации разные (арчвики, доки питона, сайты с гайдами по разным темам...)
2
0
0

@tiredbun @rf я в кивикс и качаю википедию. arch wiki там нет, я качаю её щас wget’ом

2
0
0

@voidcat их можно попросить добавить сайт в свою базу архивов. Или, емнип, соскрапить самостоятельно. Вроде @dside делал первое (и возможно знает больше про второе)

@rf @tiredbun

2
0
0

@tiredbun @voidcat альтернативно, можно запихнуть скачанные файлы в что-то вроде erofs или DwarFS, и иметь сжатый образ который подмонтировать можно

0
0
0

@mo @voidcat @tiredbun я не самостоятельно скрапил, я просил их добавить новый сайт в каталог, и они сделали всё сами, заявки оформляются тут: https://github.com/openzim/zim-requests/issues

Преимущества заявки: добавленный в расписание сайт они будут скрапить регулярно (4 раза в год по умолчанию) и они в курсе некоторых несовершенств своих скраперов, там иногда дополнительные опции надо доокидывать — с чем можно разобраться и самостоятельно, но если архив может много кому понадобиться, заявка много кому сэкономит время.

Но в данном случае это не нужно, арчвики там уже есть: https://library.kiwix.org/#lang=eng&q=arch

Я изучал формат файла с непонятными планами собрать собственный генератор, но из этого пока ничего не выросло.

0
0
0

@voidcat плюсы относительно wget: полученный результат можно будет легко и не распаковывая читать в той же читалке что и википедию

@dside @rf @tiredbun

0
0
0

@voidcat о! мило, не мне одному хочется чем-то подобным заниматься…

Я скачал на ПК и телефон organic maps (на ПК карты России🇷🇺, Латвии🇱🇻, Эстонии🇪🇪, Литвы🇱🇹, Беларуси🇧🇾, Украины🇺🇦, Молдовы🇲🇩, Греции🇬🇷, Турции🇹🇷, Сирии🇸🇾, Палестины🇵🇸, Израиля🇮🇱, Абхазии, Южной Осетии, Грузии🇬🇪, Армении🇦🇲, Азербайджана🇦🇿, Ирана🇮🇷, Туркменистана🇹🇲, Узбекистана🇺🇿, Казахстана🇰🇿, Таджикистана🇹🇯, Киргизии🇰🇬, Монголии🇲🇳, КНДР🇰🇵, Кубы🇨🇺, части штата Нью-Йорк🇺🇸, Сьерра-Леоне🇸🇱, Соломоновых островов🇸🇧 и Антарктиды🇦🇶, на телефоне у меня только карты конституционно российских территорий).

Ещё у меня уже довольно давно коллекция музыки порядка 20 ГБ скачана. С недавних пор я так же скачал несколько клипов, которые какое-то время назад много пересматривал.

Так же у меня скачано полностью 3-е издание Большой Советской Энциклопедии, потому что я не разобрался, как скачать bigenc.ru ну и какие доступные для скачивания аналоги БСЭ существуют на английском языке я не знаю. Я так же скачал Большую Медицинскую Энциклопедию 2024 (Под редакцией д.м.н. Ю. Ю. Елисеева, профессора, академика РАМТН), ну и ещё у меня есть довольно большая библиотека других книг (часть из них скопирована из электронной книги моей), ещё у меня немало бумажных книг, так что без чтения я не останусь до конца жизни даже при полном отключении Интернета до конца жизни.

Ведение личного бухгалтерского учёта (который я всё никак не начну вести постоянно), заметки, дневник, и ещё ряд вещей у меня тоже полностью не зависят от Интернета довольно давно (вот только контакты никак не перенесу в локальное хранение).

Мне лично важно ещё держать Stellarium установленным (чтобы рассчитывать время и положения небесных тел и не только).

Ну и ещё какое-то количество фильмов у меня есть (у папы, впрочем, несколько внешних дисков на много гигабайт с фильмами, т.е. сильно больше, чем у меня) — 4 сезона «Шерлока», «Trigun», «Призрак в доспехах» (1995), «Навсикая из Долины ветров», «Ёжик в тумане», и ещё советский фильм про испытание «Царь-бомбы».

О, ещё у меня есть шрифты и несколько ISO-образом с линуксами, так что если очень захочу, смогу заниматься дистрохоппингом даже при белых списках.

А, ну и ещё у меня есть сделанный @madtechguy portable веб-интерфейс creogen для локальных LLM, там же YandexGPT-5, gemma-3-12b, SAINEMO… Но я им давно не пользовался, потому что всё никак не сделаю под себя свою NixOS ❄

0
0
0