מישהו מכיר מימוש לתוכנה אפקטיבית להוצאת מאמר מתוך HTML?
אני מחפש תוכנה ממומשת בפייתון או בג'אווה שיכולה להוציא את התוכן של המאמר בלבד (בלי טאגים, בלי פרסומות וזבל אחר) מתוך עמוד HTML (נניח לצורך העניין שתחביר תקין, נניח עמוד אקראי ברויטרס אבל לא בהכרח ברויטרס אלא באתר חדשות שרירותי)... קראתי על כל מיני אלגוריתמים שיכולים לעשות את זה אבל אני קצר בכוח וזמן לממש ואני צריך את זה לחלק מזערי בפרויקט שלי, אז הייתי שמח לקבל מימוש אפקטיבי לזה שמחזיר תוצאות טובות באחוזים גבוהים.