Semalt: Што з'яўляецца найбольш эфектыўным спосабам выдалення змесціва з сайта?

Q

Скрабаванне дадзеных - гэта працэс вымання змесціва з вэб-сайтаў пры дапамозе адмысловых дадаткаў. Хоць выскрабанне дадзеных гучыць як тэхнічны тэрмін, яго можна лёгка ажыццявіць з дапамогай зручнага інструмента або прыкладання.

Гэтыя інструменты выкарыстоўваюцца для таго, каб як мага хутчэй здабываць неабходныя вам дадзеныя з пэўных вэб-старонак. Ваша машына будзе выконваць сваю працу хутчэй і лепш, таму што кампутары могуць распазнаць адзін аднаго за некалькі хвілін, незалежна ад таго, наколькі вялікая іх база дадзеных.

Вам калі-небудзь трэба было абнавіць сайт, не губляючы яго змесціва? Лепш за ўсё саскрабаць увесь змест і захаваць яго ў пэўнай тэчцы. Магчыма, усё, што вам трэба, гэта прыкладанне або праграмнае забеспячэнне, якое займае URL сайта, апісвае ўвесь змест і захоўвае яго ў загадзя прызначанай тэчцы.

Вось спіс інструментаў, вы можаце паспрабаваць знайсці той, які будзе адпавядаць усім вашым патрэбам:

1. HTTrack

Гэта ўтыліта для браўзэра ў аўтаномным рэжыме, якая можа разбураць сайты. Вы можаце наладзіць яго такім чынам, каб вам зрушыць сайт і захаваць яго змест. Важна адзначыць, што HTTrack не можа знізіць PHP, бо гэта код на серверы. Аднак ён можа спраўляцца з выявамі, HTML і JavaScript.

2. Выкарыстоўвайце "Захаваць як"

Вы можаце выкарыстоўваць опцыю "Захаваць як" для любой старонкі сайта. Гэта дазволіць захаваць старонкі практычна з усім медыя-змесцівам. У браўзэры Firefox перайдзіце ў інструмент, а затым выберыце Інфармацыя пра старонку і націсніце Медыя. У ім будзе распрацаваны спіс усіх носьбітаў інфармацыі, якія вы можаце загрузіць. Вы павінны праверыць гэта і выбраць тыя, якія вы хочаце здабыць.

3. GNU Wget

Вы можаце выкарыстоўваць GNU Wget, каб захапіць увесь вэб-сайт імгненнем вока. Аднак гэты інструмент мае нязначны недахоп. Немагчыма разабраць файлы CSS. Акрамя гэтага, ён можа справіцца з любым іншым файлам. Ён загружае файлы праз FTP, HTTP і HTTPS.

4. Просты парсер HTML DOM

HTML DOM Parser - яшчэ адзін эфектыўны інструмент выскрабання, які дапаможа вам саскрэбіць увесь змест вашага сайта. У яго ёсць некалькі блізкіх альтэрнатыў, такіх як FluentDom, QueryPath, Zend_Dom і phpQuery, якія выкарыстоўваюць DOM замест String Parsing.

5. Скрапія

Гэтая рамка можа быць выкарыстана для выскрабання ўсяго змесціва вашага сайта. Звярніце ўвагу, што выскрабанне змесціва - не адзіная яго функцыя, бо ён можа быць выкарыстаны для аўтаматызаванага тэсціравання, маніторынгу, пошуку дадзеных і сканавання ў Інтэрнэце.

6. Выкарыстоўвайце каманду, прапанаваную ніжэй, каб саскрэбце змесціва вашага сайта, перш чым разарваць яго:

file_put_contents ('/ некаторыя / каталог / scrape_content.html', file_get_contents ('http://google.com'));

Выснова

Вы павінны паспрабаваць кожны з пералічаных вышэй варыянтаў, бо ва ўсіх ёсць свае моцныя і слабыя бакі. Аднак, калі вам трэба саскрэбіць вялікую колькасць сайтаў, лепш звярнуцца да спецыялістаў па выпрацоўцы вэб-сайтаў, паколькі гэтыя інструменты не могуць справіцца з такімі аб'ёмамі.