有一個有趣的問題,就是如果你的原創文章被某個網站抄襲,并且該網站比你更早被Baidu所抓取,那么一來Baidu是否有辦法判斷你的網站是原創文章的來源呢? 谷歌SEO專家Matt說到,如果你的文章被盜用,可以透過數位千禧年著作權法(Digital Millennium Copyright Act)去處理。 但是問題是DMCA是美國的法律,所以我們必須看看臺灣的著作權法的規范: 「侵害著作權,依著作權法第八十四條、第八十五條及第八十八條,規定負民事責任,另依著權法第九十一條至第九十五條規定負刑事任,刑期最重為六月以上,五年以下有期徒刑,得併科新臺幣三十萬以下罰金,如為常業反則為一年以上七年以下有期徒刑,得併科新臺幣四十五萬以下罰金。」 好長的規范,但是其實根本無法真正保障著作權人,因為還沒有處罰到抄襲者之前,著作權人可能已經被這些訴訟程序累死了。并且問題是文章被盜用,經常來自於其他地區的網站,本地區的著作權法也無從規范。但是本文暫時不談著作權的問題,僅先討論Baidu是否能夠判斷原創來源的問題。其實筆者為什么會寫這篇文章,就是因為筆者的一個網站www.11psb.com原先原創文章都是,結果后來被人復制,自己的卻被判斷為復制的,導致進入百度沙盒期,至今未正常。 我們可以想象,可以知道如果「抄襲的網站比你的網站更早被抓取」的話,其實Baidu已經很難還你一個公道。除非你還有其他的線索讓Baidu按圖索引,去找出到底誰才是原創。 我們在"Crawl Priority與SERP有沒有關係?"也說過同樣的問題,我們的文章刊登出來,也同時被許多采集網站偷走內容,但是經過一段時間之后,Baidu還是會判斷出來我們才是原創的來源。 這是怎么辦到的呢? 要讓Baidu能夠判斷原創的來源,必須有幾個條件: (1) 如果抄襲的網站A更早被Baidu抓取,你的網站必須有資料可以證明Baidu抓取網站A的時間點之前,你的文章已經存在。 哪些資料可以證明你的文章存在時間呢? 就是可以信賴來源的鏈接。如果你的文章被某個信譽良好的網站B鏈接,其存在的時間早於抄襲的網站A,那么Baidu就知道你的文章是被網站A抄襲的。 如果所有的鏈接時間都還是比抄襲的網站A晚,那怎么辦呢? 如果你的文章被許多信譽良好的網站B、C、D、E ... 等網站引用鏈接,雖然時間都比抄襲的網站A晚,其實Baidu也可以判斷你的文章的原創性,因為別的網站從你的網站引用,而不是從網站A。 所以由公正的第三方網站的引用時間,或是引用行為,也可以證明你的文章原創性。 (2) 抄襲的網站A有其他抄襲別人網站的歷史資料。 當抄襲的網站A也有許多抄襲別人內容的記錄,也就是已經被Baidu列為抄襲慣犯的話,其實很快就可以判斷你的文章原創性。 (3) 你的原創內容有更優秀的被鏈接或是閱讀模式。 除了第一點提到的引用時間或是引用行為之外,如果你的內容被讀者高度閱讀或是點選的話,也能夠證明你的文章原創性。 如果你的文章被抄襲了,并且上面三點都對你不利的話,那么肯定Baidu就沒有辦法判斷出來了,只能怪你自己沒有辦法讓Baidu快速的抓取了 |