קשה להגיד כי אנחנו לא יודעים איך הדף בנוי, איך הלינקים מסודרים -
ומה מהם אתה בדיוק רוצה להוריד.בגדול הכיוון הוא לקבל את תוכן הדף עם CURL או כל אמצעי אחר שתרצה,
לבצע סריקה של הלינקים בעזרת ביטוי רגולארי שיחזיר לך את הלינקים הרלוונטים (PREG MATCH ALL).
לא רואה טעם לשמור כל פעם את כל תוכן העמוד, תעבור לינק לינק בלולואה ושמור אותם ב DB -
כל פעם תבדוק אם הלינק כבר קיים - במידה ולא, תכניס.
בשביל ביטויים רגולארים אני ממליץ על אפליקציית פלאש נחמדה בשם RegExr
http://gskinner.com/RegExr/
מעבר לזה שזה כלי אדיר לבדוק ביטויים רגולארים על מחרוזות,
יש שם בצד ימין תפריט שתוכל לחפש ביטויים שגולשים כבר העלו.
אם תחפש HREF למשל, תוכל למצוא ביטוי רגולארי מוכן שיידע להוציא לך את התוכן בין המרכאות.
אחר כך כדי להתאים אותו לקוד שלך ולעשות שינויים זה כבר שטויות בעזרת הכלי הזה.