Lấy Tin Tự Động Từ Mọi Website Tin Tức 1.5 - 2.5

tin tuc tu dong

  1. tranngochien89
    Mình thấy bên topip
    http://diendan.joomlaviet.vn/thread...tin-tu-dong-tu-moi-website-tin-tuc.615/page-6
    có nhiều yêu cầu up com_econtent. Nay mình xin được phép add lên đây cho các ae,
    có cả joomla 1.5 & 2.5

    Hướng dẫn sử dụng

    Bài viết sử dụng nội dung của kjdkjdd diễn đàn vietcanh.com. Bài viết sau sắp xếp và trình bày lại bởi KSTN để các bạn dễ dàng theo dõi.
    E-content các bạn không còn lạ gì với nó nữa ,thật sự không thể nào mò mẫm được trừ khi có 1 ai đó hướng dẫn.Vậy nên hôm nay kjd sẽ trình bày những gì mình hiểu được cho các bạn mong phần nào giúp các bạn hoàn thiện về website của mình.

    Nhưng trước khi bắt đầu mình muốn các bạn hiểu được 1 số vấn đề về Biểu Thức Chính Quy Rgl.
    Rgl là dùng những ký tự đặc biệt thay thế các dữ liệu mà mình muốn tìm kiếm.
    Ở đây mình tìm hiểu về 3 ký tự sẽ dùng xuyên suốt trong E-Content

    \s* dùng để thay thế 1 khoảng trắng (ex: a b ==> a\s*b)
    .*? dùng thay thế mọi ký tự (abcd ... vào phần dưới mọi người sẽ hiểu rõ hơn)
    \ Làm cho nó không hiểu lầm với biểu thức của rgl (ex: </div> khi ghi trong rgl thì / <-- của thẻ div nó trùng với ký tự trong rgl nó sẽ không hiểu thẻ </div> nữa nên mình phải gán \ vào nó mới hiểu <\/div> )

    Điều quan trọng phải viết biểu thức ở trong :Công thức / Biểu thức /ism

    Khi các bạn đã tương đối hiểu những phần trên OK chúng ta bắt đầu bắt tay vào từng bước của quá trình sẽ hiểu rõ hơn nữa.

    B1. Download - Cài đặt Component E-content

    Com E-Content (Download tại ĐÂY ), cài đặt như các Component thông thường.
    Vào Com E-Conten, 1 cửa sổ hiện ra giờ chưa có gì hết.Chúng ta hãy bấm vào nút New Đi nào :).

    B2. Put Link:

    Dán link cần lấy tin vào.Ở đây tôi dùng http://www.pcworld.com.vn/articles/cong-nghe/cong-nghe/để lấy tin công nghệ (cũng ko cần text làm gì vì khi bạn vào trang tin này ở ngoài web thì đã biết nó sống hay die rồi )

    [​IMG]


    nhấn Next tiếp tục nào.


    B3:Detail Link:

    Bắt đầu sử dụng Rgl để lọc cái Web bự lấy mấy cái tin ra (Mình nói ngôn từ trần trụi xíu cho các bạn hiểu rõ hơn nhé ^^)

    [​IMG]


    Ở Bước này các bạn phải dùng Firebug nhấn từng title của những tin ấyta thấy được 1 cấu trúc trùng lặp ở đây đó là <div class="item"> <a class="title" href="/articles/cong-nghe/cong-nghe/2012/09/1232938/nhin-lai-cong-nghe-bluetooth/" >Nhìn lại công nghệ Bluetooth</a>

    Bước này ta dùng Rgl để lọc những ký tự trong href dựa vào công thức la có:
    /<div class="item">\s*<a class="title" href="/(.*?)">.*?<\/a>/ism (copy CT này lại để dùng cho bước sau)

    (.*?) được thay cho /articles/cong-nghe/cong-nghe/2012/09/1232938/nhin-lai-cong-nghe-bluetooth/
    .*? được thay cho Nhìn lại công nghệ Bluetooth

    vậy tại sao lại có dâu ngoặc ở đây . Bước này ta chủ yếu lấy dữ liệu trong href nên ta ngoặc nó .

    vậy ta viết vào Detail Link như sau: /<div class="item">\s*<a class="title" href="/(.*?)">.*?<\/a>/ism


    [​IMG]



    các bạn để ý thấy số 1 ghi ở đó tức là lấy ở dấu ngoặc đơn đầu tiên (trường hợp có nhiều ngoặc đơn để phân biệt)
    Nhấn test --> Ok ---> nhấn Next

    B4:Get title : Lọc title


    paste dòng công thức Rgl đã copy ở trên

    /<div class="item">\s*<a class="title" href="/(.*?)">.*?<\/a>/ism

    Thêm vào () cho .*?

    ==>/<div class="item">\s*<a class="title" href="/(.*?)">(.*?)<\/a>/ism

    [​IMG]



    Ghi số 2 (để lọc ở dấu ngoặc đơn thứ 2,Vì bước này mình lấy title mà)

    ấn text-->ok--> Next

    B5:Data Way:

    Chọn kiểu đổ dữ liệu
    Ở đây mình chọn Mainintro and fulltext --> next

    B6:Intro text:


    Ta dùng firebug bấm vào 1 khung bất kỳ của trang tin để xác định điểm đầu và điểm cuối của cái khung ấy.


    [​IMG]
    điểm đầu:<div class="list-area">
    điểm cuối:<div style="clear: both">

    Công thức: giet introtext là :
    /<div class="list-area">(.*?)<div style="clear: both">/ism

    Find and Replace (RegExp): /<a href="/.*?">/ism <=> ( dòng này bắt buộc phải có dù bất cứ link nào)


    [​IMG]
    Nhấn test ---> ok ----> next

    B6:Full text:( lấy nội dung)
    Chúng ta cũng xác định điểm đầu và cuối của nội dung
    Thực hiện:
    nhấn vào trực tiếp 1 tin :xác định điểm đầu của text dùng firebug quét chữ B như Hình để thấy điểm đầu của code hình.

    [​IMG]

    điểm đầu là:<div class="summary" style="margin-bottom: 7px">

    rồi dùng Firebug quét điểm cuối của text:


    [​IMG]

    Điểm cuối là:<td class="keyword" align="left">

    vậy công thức là
    /<div class="summary" style="margin-bottom: 7px">(.*?)<td class="keyword" align="left">/ism

    [​IMG]

    text -- > next

    B7-> next
    B8:Get number content 10 ( cho lấy 10 tin)
    Publishing:
    [​IMG]

    Tự làm theo web của bạn nhé.
    Qua tab
    [​IMG]


    Manual. Nhấn vào dấu check nhấn capture để tải link về.

    CHÚ Ý : ĐẾN PHẦN SETTING CÓ Ô UNICODE HTML CHỌN "NO" ĐỂ KHÔNG BỊ LỖI FONT KHI ĐỔ DỮ LIỆU VỀ NHÉ


    Đến đây là xong rồi :)

    Có gì không hiểu thì hỏi trực tiếp ở đây mình sẽ cố gắng giải thích hết những gì mình biết cho các bạn dễ hiểu .

    Một số Rgl mẫu của các trang web



    Put link: http://dantri.com.vn/c130/tinhyeu-gioitinh.htm (Dân trí Tình yêu - Giới tính)


    Detail Link: /<div class="mr1">\s*<a class="fon6" href="/(.*?)">.*?<\/a>/ism 1 test
    Get title: /<div class="mr1">\s*<a class="fon6" href="/(.*?)">(.*?)<\/a>/ism 2 test
    Intro text: /<div class="mt3 clearfix">(.*?)<\/div>/ism 1 test
    + Find and Replace (RegExp): /<a href="/.*?">/ism <=>
    Full text: /<h2 class="fon33 mt1">(.*?)<div style="text-align:center; padding-top:5px">/ism 1 test
    + Find and Replace (RegExp): /<a href="/.*?">/ism <=>


    Put link: http://kenh14.vn/doi-song.chn (Kênh 14 Đời sống)


    Detail link : /<h4 class="title">\s*<a href="/(.*?)">.*?<\/a>/ism test 1
    Titles:/<h4 class="title">\s*<a href="/(.*?)">(.*?)<\/a>/ism test 2
    Intro text: /<div class="item clearfix">(.*?)<\/ul>/ism test 1
    + Find and replace:/<a href="/.*?">/ism <=>
    Full text: /<p class="sapo">(.*?)<div class="post-share">/ism test 1
    + Find and replace:/<a href="/.*?">/ism <=>

    Put link: http://sohoa.vnexpress.net/tin-tuc/san-pham/dien-thoai/ (Điện thoại vn-express)


    Detail Links: /<h3 class="h3Homen">\s*<a href="/(.*?)">.*?<\/a>/ism test1
    Titles:/<h3 class="h3Homen">\s*<a href="/(.*?)">(.*?)<\/a>/ism test2
    Intro:/<h3 class="h3Homen">(.*?)<div class="share-link">/ism test1
    + Find and replace: /<a href="/.*?">/ism <=>
    Fulltext :/<p class="dt-pts">(.*?)<strong>/ism test1
    + Find and replace :/<a href="/.*?">/ism <=>

    Put link: http://hcm.24h.com.vn/an-ninh-hinh-su-c51.html (24h An ninh hình sự)

    Detail Links: /<div class="div_title_news">\s*<a href="/(.*?)" title="(.*?)">.*?<\/a>/ism test 2
    Titles: /<div class="div_title_news">\s*<a href="/(.*?)" title="(.*?)">(.*?)<\/a>/ism test 3
    Introtext: /<div class="boxDonItem">(.*?)<div class="divXemTiep">/ism 1test
    + Find and replace: /<a href="/.*?">/ism <=>
    Fulltext : /<div class="baiviet-head-noidung">(.*?)<div class="nguontin">/ism 1test
    + Find and replace: /<a href="/.*?">/ism <=>


    Nguồn tham khảo: http://kstnk57.com/blog/joomla-components/e-content-joomla.html

Recent Reviews

  1. katcom68
    katcom68
    5/5,
    Version: 1.5 - 2.5
    Rất tâm đắc bài viết, người post rất công phu.