ABA


"צריך עזרה - למבינים בפרוטוקול HTTP"
גירסת הדפסה        
קבוצות דיון פיתוח, תיכנות ובניית אתרים נושא #12228 מנהל    סגן המנהל    מפקח   Winner    צל"ש   מומחה  
אשכול מספר 12228
Ken

   17:52   23.06.05   
אל הפורום  
  צריך עזרה - למבינים בפרוטוקול HTTP  
 
   ערכתי לאחרונה בתאריך 23.06.05 בשעה 17:53 בברכה, Ken
 
אני בונה סוג של בוט שמקבל מידע ספציפי הנמצא בדרך כלל באמצע עמוד HTML.
אני מנסה כמה שיותר לצמצם את המידע שאני מקבל בכל סריקה.
עמוד HTML מלא הוא בערך 80KB. המידע שאני צריך הוא בערך 1-2KB - וכפי שאמרתי נמצא בערך באמצע עמוד.

תחילה ניסיתי בעזרת Range: Bytes=1000-2000 (סתם ערך לדוגמה).
אבל הדבר פועל כמעט ואך ורק עבור קבצי תמונה או exe ולא עמודי אינטרנט.
לאחר מכן גילתי שיש שרתים שתומכים בכיווץ gzip או deflate, אך מספרם מצומצם.
אני מנסה כמה שיותר לכווץ את החלק הראשון של העמוד, שהרי הוא מידע מיותר עבורי.
החלק השני של העמוד הוא לא בעיה, אפשר פשוט לנתק את התקשורת לאחר שהתקבל המידע המבוקש.

חשבתי אולי אם יש דרך לקבל את העמוד בצורה רק של טקסט (ללא תגיות HTML) זה יהיה מעולה - אך אני לא יודע אם זה אפשרי.
תעזרו לי למצוא פתרונות נוספים...

תודה מראש,

KeN


                                שתף        
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד

  האשכול     מחבר     תאריך כתיבה     מספר  
  אני לא חושב שניתן לקבל את הדף כטקסט מסיבה פשוטה Ice Cold  25.06.05 18:38 1
     תודה על התגובה Ken 25.06.05 19:13 2

       
Ice Cold  לחץ כאן להצגת דירוג המשתמש
חבר מתאריך 3.8.02
28041 הודעות, 19 פידבק
   18:38   25.06.05   
אל הפורום  
  1. אני לא חושב שניתן לקבל את הדף כטקסט מסיבה פשוטה  
בתגובה להודעה מספר 0
 
הפרוטוקול לא יודע מה HTML, מבחינתו הוא מקבל STREAM של תווים, ולכן אם תגדיר RANGE מסויים, הוא יכול להיחתך באמצע תו מסוים...

אולי יש עוד דרך, להביא את כל הדף, ואז לנתח ב - DOM מה שאתה צריך...

אבל שוב, זה ידרוש ממך להוריד את כל הדף.


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד
Ken

   19:13   25.06.05   
אל הפורום  
  2. תודה על התגובה  
בתגובה להודעה מספר 1
 
   הבעיה שלי הייתה להוריד את כל הדף...ניסיתי לצמצם את רוחב הפס שבשימוש.
אבל כמו שראיתי וכמו שאתה אומר, לא נראה לי שזה באמת אפשרי.
צריך להוריד את כל הדף, ולנתח אותו.

תודה בכל מקרה =]


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד

תגובה מהירה  למכתב מספר: 
 
___________________________________________________________________

___________________________________________________________________
למנהלים:  נעל | תייק בארכיון | מחק | העבר לפורום אחר | מחק תגובות | עגן אשכול
       



© כל הזכויות שמורות ל-רוטר.נט בע"מ rotter.net