هريتركس
عودة للموسوعةنوع |
زواحف الويب
|
---|---|
مواقع الويب |
crawler.archive.org webarchive.jira.com/wiki/display/Heritrix heritrix.readthedocs.io |
المطورون |
أرشيف الإنترنت
|
---|---|
لغة البرمجة |
جافا
|
الإصدار الأخير |
3.0.0 |
المستودع |
|
الرخصة |
رخصة جنوالعمومية الصغرى
|
هيراتراكس (Heritrix) هوزاحف أرشيف أنترنت، والذي صمم خصيصا للأرشفة ويب. فهومفتوح المصدر ومكتوب بلغة جافا. القابلة الرئيسية للوصول باستخدام متصفح ويب، وهناك أداة سطر الأوامر التي يمكن اختياريا استخدامها لبدء بالزحف. طور هيراتراكس بالاشتراك مع أرشيف الإنترنت والمخطات الوطنية في الشمال المواصفات المكتوبة في أوائل عام 2003. وكان إطلاقه الرسمي في أول يناير 2004، وتم تحسينها باستمرار من قبل العاملين في أرشيف الإنترنت وغيرها من الأطراف المهتمة.
مشاريع استخدمت هيراتراكس
وهناك عدد من المنظمات والمخطات الوطنية تستخدم هيراتراكس، من بينها:
- مخطة فرنسا الوطنية
- المخطة البريطانية
- مخطة كاليفورنيا الرقمية لخدمات أرشفة الويب
- سيتي سير إكس (CiteSeerX)
- توثيق انترنت2
- أرشيف ومخطة كندا
- مخطة الجامعة والوطنية في أيسلندا
- المخطة الوطنية الفنلندية
- المخطة الوطنية في نيوزيلندا
- Netarkivet.dk
- المخطة الوطنية النمساوية، أرشفة الويب
- المخطة الأسكندرية لارشفة الإنترنت
قوس الملفات
في الاصل تخزن هيراتراكس موارد الإنترنت التي تزحف عليها في ملف القوس. هذا القوس ليست لها علاقة كليا لمركز البحوث الزراعية (تنسيق ملف). وقد استخدم هذا الشكل من أرشيف الإنترنت منذ عام 1996 لتخزين الأرشيف على شبكة الويب. ويمكن أيضا تنسيق الملف WARC، مماثلة لـARC ولكن أكثر دقة ومرونة. يمكن أيضا حتى يتم تكوين هيراتراكس لتخزين الملفات في شكل مرشد مماثلة لزاحف وجت المستخدم عنوان إلى اسم الدليل واسم جميع مورد. يقوم ملف القوس بتخزين متعددة الموارد المؤرشفة في ملف واحد من أجل تجنب إدارة عدد كبير من الملفات الصغيرة. يتكون الملف من سلسلة من السجلات العنوان، جميع رأس يحتوي بيانات وصفية حول كيفية طلب الموارد تليها راس HTTP والاستجابة لها. ملفات القوس تتراوح ما بين 100 حتي 600 ميغا بايت. على سبيل المثال:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL IP-address Archive-date Content-type Archive-length
http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP/1.1 200 OK Date: Thu, 22 Jun 2006 19:01:15 GMT Server: Apache Last-Modified: Sat,عشرة Jun 2006 22:33:11 GMT Content-Length: 30 Content-Type: text/html
<html> Hello World!!! </html>
ادوات لمعالجة ملفات القوس
هيراتراكس يتضمن أداة سطر الأوامر تسمى arcreader والتي يمكن استخدامها لاستخراج محتويات ملف القوس. الأمر التالي يسرد كافة عناوين المواقع والبيانات المخزنة في ملف القوس معين (بصيغة CDX) :
arcreader IA-2006062.arc
الأمر التالي مقتطفات hello.html من المثال أعلاه بافتراض السجل يبدأ عند إزاحة 140:
arcreader -o 140 -f dump IA-2006062.arc
أدوات أخرى:
- أدوات معالجة القوس
- WERA (Web ARchive Access)
أداة سطر الأوامر
هيراتراكس يأتي مع أدوات سطر الأوامر عدة:
- htmlextractor - يعرض وصلات لاستخراج هيراتراكس بعنوان معين
- hoppath.pl - يعيد المسار هوب (طريق وصلات) إلى عنوان محدد من الزحف الانتهاء
- manifest_bundle.pl - حزم في جميع الموارد المشار إليه بواسطة ملف الزحف واضح إلى غير مضغوط أومضغوط الكرة القطران
- cmdline-jmxclient - تمكن سطر الأوامر السيطرة على هيراتراكس
- arcreader - مقتطفات محتويات الملفات القوس (انظر أعلاه)
انظر أيضاً
- أرشيف الإنترنت
المراجع
- Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introduction to Heritrix, an archival quality web crawler" (PDF). Proceedings of the 4th International Web Archiving Workshop (IWAW’04). مؤرشف من الأصل (PDF) في 16 أبريل 2016. صيانة CS1: أسماء متعددة: قائمة المؤلفون (link)
- Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF). Proceedings of the 5th International Web Archiving Workshop (IWAW’05). مؤرشف من الأصل (PDF) في 02 يونيو2016.
وصلات خارجية
أدوات حسب أرشيف الإنترنت:
- هيراتراكس - المسقط الرسمي
- NutchWAX - البحث في مجموعات ارشيف الويب
- Wayback (Open source Wayback Machine) - درس وتصفح الويب باستخدام مجموعات الأرشيف NutchWax
روابط لأدوات لها علاقة:
- تنسيق أوامتداد ملف القوس
- كيفية تشغيل هيراتراكس على ويندوز
- WERA (Web ARchive Access) - درس وتصفح الويب باستخدام مجموعات الأرشيف NutchWAX
المراجع
- ^ "معلومات عن هريهجرس على مسقط pro-linux.de". pro-linux.de. مؤرشف من الأصل فيثمانية أبريل 2020.
- ^ "معلومات عن هريهجرس على مسقط openhub.net". openhub.net. مؤرشف من الأصل فيثمانية أبريل 2020.
التصنيفات: أرشيف الويب, برامج ويندوز, برمجيات 2014, برمجيات تسخدم رخصة جي بي إل, برمجيات محركات بحث, برمجيات يونكس, بروتوكول نقل النص الفائق, زواحف ويب مجانية, صفحات تستخدم خاصية P856, صفحات بها بيانات ويكي بيانات, صفحات تستخدم خاصية P178, صفحات تستخدم خاصية P1324, صفحات تستخدم خاصية P154, صيانة CS1: أسماء متعددة: قائمة المؤلفون, بوابة برمجيات/مقالات متعلقة, بوابة برمجيات حرة/مقالات متعلقة, جميع المقالات التي تستخدم شريط بوابات