סקירת Semalt: גירוד אתרים למטרות רווח

אתה יכול לגרד את האתר ללא צורך בממשק API. בעוד שבעלי אתרים אגרסיביים בהפסקת גירוד, הם פחות דואגים לממשקי API ובמקום זאת שמים דגש רב יותר על אתרי אינטרנט. העובדות שאתרים רבים אינם שומרים כראוי מפני גישה אוטומטית מייצרת מרחב מגרדים. כמה דרכים לעקיפות פשוטות יעזרו לכם לקצור את הנתונים הדרושים לכם.

תחילת העבודה עם גרידה

גרידה מחייבת הבנה של מבנה הנתונים הדרושים לך ונגישותם. זה מתחיל באחזור הנתונים שלך. מצא את כתובת האתר שמחזירה את המידע הדרוש לך. דפדף באתר ובדוק כיצד כתובות האתר משתנות כשאתה מנווט בקטעים שונים.

לחלופין, חפש במספר מונחים באתר ובדוק כיצד כתובות האתר משתנות על סמך מונח החיפוש שלך. אתה אמור לראות פרמטר GET כמו q = שמשתנה בכל פעם שאתה מחפש מונח חדש. שמור על הפרמטרים GET הדרושים לטעינת הנתונים שלך והסר את האחרים.

כיצד להתמודד עם עימוד

עימוד מונע ממך גישה לכל הנתונים הדרושים לך בבת אחת. כשאתה לוחץ על דף 2, פרמטר offset = מתווסף לכתובת האתר. זהו מספר האלמנטים בדף או מספר העמוד. צרף את המספר הזה בכל דף הנתונים שלך.

לאתרים המשתמשים ב- AJAX, הרם את לשונית הרשת ב- Firebug או Inspector. בדוק את בקשות ה- XHR, זיהוי והתמקד באלה ששולפים את הנתונים שלך.

קבל נתונים מסימון העמודים

זה מושג באמצעות ווים של CSS. לחץ באמצעות לחצן העכבר הימני על קטע מסוים מהנתונים שלך. משוך את באגי האש או הפקח והקרב את העץ לדום כדי לקבל את ה <div> הרחוק ביותר העוטף פריט בודד. ברגע שיש לך את הצומת הנכון מעץ DOM, צפה במקור העמוד כדי לוודא שהרכיבים שלך נגישים ב- HTML גולמי.

כדי לגרד את האתר בהצלחה, אתה זקוק לספריית ניתוח ניתוח HTML שקוראת ב- HTML והופכת אותה לאובייקט שתוכל לחזור עליו עד שתשיג את מה שאתה צריך. אם ספריית HTTP שלך מחייבת להגדיר קובצי Cookie או כותרות, דפדף באתר בדפדפן האינטרנט שלך וקבל את הכותרות שנשלחות על ידי הדפדפן שלך. הכניסו אותם למילון והעבירו לבקשתכם.

כשאתה זקוק להתחברות כדי לגרד

אם עליך ליצור חשבון ולהתחבר כדי לקבל את הנתונים שאתה רוצה, אתה צריך להיות ספריית HTTP טובה כדי לטפל בכניסה. כניסה למגרד חושפת אותך לאתרי צד ג '.

אם מגבלת התעריף של שירות האינטרנט שלך תלויה בכתובת ה- IP, קבע קוד הפוגע בשירות האינטרנט ל- Javascript בצד הלקוח. ואז העביר את התוצאות בחזרה לשרת שלך מכל לקוח. נראה כי התוצאות מקורן בכל כך הרבה מקומות, ואף אחת מהן לא תחרוג ממגבלת התעריף שלהם.

סימון מעוצב בצורה לא טובה

קשה לאמת כמה סימונים. במקרים כאלה, התחפר בנתח ה- HTML שלך להגדרות סובלנות לשגיאות. לחלופין, התייחס למסמך HTML כולו כאל מחרוזת ארוכה ובצע פיצול מחרוזות.

אמנם אתה יכול לאתר גירוד כל מיני נתונים ברשת אתרים מסוימים מעסיקים תוכנה כדי להפסיק את הגריטה, ואחרים אוסרים גרוטאות באינטרנט . אתרים כאלה יכולים לתבוע אותך ואפילו יש לך כלא בגין קצירת הנתונים שלהם. אז היה חכם בכל גרוטאות האינטרנט שלך, עשה זאת בבטחה.

mass gmail