ABA


"זיהוי כתבות דומות, איך הייתם ניגשים לזה?"
גירסת הדפסה        
קבוצות דיון פיתוח, תיכנות ובניית אתרים נושא #20250 מנהל    סגן המנהל    מפקח   Winner    צל"ש   מומחה  
אשכול מספר 20250
משה הלולן לחץ כאן להצגת דירוג המשתמש
חבר מתאריך 11.6.13
4818 הודעות, 8 פידבק
   11:20   11.10.13   
אל הפורום  
  זיהוי כתבות דומות, איך הייתם ניגשים לזה?  
 
   אני צריך לבנות משהו בסגנון של גוגל חדשות שהוא יודע לזהות שעל אותו נושא רשמו כמה אתרים:
https://news.google.co.il/nwshp?hl=iw&tab=wn&authuser=0
תראו מתחת לכל ידיעה יש קישורים לאתרים נוספים שרשמו עליה.

מין הסתם יש לגוגל דברים שלי אין מה שיש לי זה את הכותרות, ותיאור קצר לפעמים לא תמיד.

מה שאני חשבתי שמה שצריך זה להשוות כמה מילים דומות יש בכותרות
לדוגמא נכנסה עכשיו ידיעה אני משווה אותה עם הידיעות האחרונות ב24 שעות האחרונות ובודק אם יש עוד ידיעות שיש לה לדוגמא 3 מילים משותפות..
אבל מין הסתם יהיו יותר מדי פספוסים אשמח לעוד איזה רעיון


                                שתף        
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד

  האשכול     מחבר     תאריך כתיבה     מספר  
  אין לי כל כך הרבה זמן עכשיו לפרט, אבל אני אכוון אותך, last_test 11.10.13 13:10 1
     נשמע לי כמו סינית אחי משה הלולן 11.10.13 15:27 2
  בהנחה ואתה לא הולך להתחרות בגוגל, אז פתרון חלקי נחמד יכול להיות שילוב של: VeNom  11.10.13 16:51 3
  זה נושא לא פשוט בכלל Net_Boy  12.10.13 23:31 4
     תודה זה קצת מורכב מדי בשבילי כרגע.. לא מבין חצי מהמושגים שמה משה הלולן 13.10.13 17:35 5

       
last_test
חבר מתאריך 20.8.13
328 הודעות
   13:10   11.10.13   
אל הפורום  
  1. אין לי כל כך הרבה זמן עכשיו לפרט, אבל אני אכוון אותך,  
בתגובה להודעה מספר 0
 
   אם אתה מעוניין לעשות את זה כמו שצריך אז לך לכיוון של NLP וסיווג תכנים (יש אחלה ספריה בפייתון).

אם אתה רוצה משהו בסיסי והתכנים שלך הם באותה שפה, אז תמיד תוכל לכתוב אלגוריתם בסיסי שעושה שמפרק הכל למילים ומחזיר לך כמות מופעים של כל מילה בטקסט x בטקסט y.

בערב מבטיח לכתוב לך תגובה מפורטת הרבה יותר!!.


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד
משה הלולן לחץ כאן להצגת דירוג המשתמש
חבר מתאריך 11.6.13
4818 הודעות, 8 פידבק
   15:27   11.10.13   
אל הפורום  
  2. נשמע לי כמו סינית אחי  
בתגובה להודעה מספר 1
 
   לא הצלחתי את הקשר בין nlp לתיכנות

אני מניח שאתה מדבר על אלגוריתם שיבין שפה וידע לעבוד איתה? זה קצת גדול עלי אני מחפש משהו פשוט בר ביצוע


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד
VeNom  לחץ כאן להצגת דירוג המשתמש
חבר מתאריך 7.6.02
7922 הודעות, 1 פידבק
   16:51   11.10.13   
אל הפורום  
  3. בהנחה ואתה לא הולך להתחרות בגוגל, אז פתרון חלקי נחמד יכול להיות שילוב של:  
בתגובה להודעה מספר 0
 
   אולי אתה צריך ליצור רשימה של מילים לא רלוונטיות כמו "גם", "הוא", "היא" וכדומה... שלא נותנים לך אינדיקציה לכלום ואז לרוץ על הפסקה הראשונה בנוסף לכותרת - כי בד"כ שם יש אינפורמציה שרלוונטי.

אגב, כל כתבה מסווגת לתת תחום(קרי כלכלה) ואני מניח שיש לה מילות מפתח איפשהו(תסתכל ב HTML שיורד אלייך בזמן בקשה לידיעה). השוואה של מילות קישור + תת תחום יכולים לסגור לך את הפינה בצורה סבירה.

אולי גם שעת פרסום המודעה תעלה רלוונטיות(כלומר אם יש חפיפה של כמה דקות בין פרסום לפרסום, מה שבד"כ קורה שיש תחרות באתרי חדשות, אז זה מגדיל את הסיכוי לכתבה קשורה).


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד
Net_Boy  לחץ כאן להצגת דירוג המשתמש
חבר מתאריך 1.4.02
17151 הודעות, 1 פידבק
   23:31   12.10.13   
אל הפורום  
  4. זה נושא לא פשוט בכלל  
בתגובה להודעה מספר 0
 
   כמו שיוחאי הציע, כדאי לך להשתמש בספריית NLP.
לדוגמא הנה מימוש למה שרצית :
http://stackoverflow.com/questions/2380394/simple-implementation-of-n-gram-tf-idf-and-cosine-similarity-in-python


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד
משה הלולן לחץ כאן להצגת דירוג המשתמש
חבר מתאריך 11.6.13
4818 הודעות, 8 פידבק
   17:35   13.10.13   
אל הפורום  
  5. תודה זה קצת מורכב מדי בשבילי כרגע.. לא מבין חצי מהמושגים שמה  
בתגובה להודעה מספר 4
 
  


                                                         (ניהול: מחק תגובה)
מכתב זה והנלווה אליו, על אחריות ועל דעת הכותב בלבד

תגובה מהירה  למכתב מספר: 
 
___________________________________________________________________

___________________________________________________________________
למנהלים:  נעל | תייק בארכיון | מחק | העבר לפורום אחר | מחק תגובות | עגן אשכול
       



© כל הזכויות שמורות ל-רוטר.נט בע"מ rotter.net