第一篇:如何運行一個剛接手的搜索引擎優(yōu)化項目
如何運行一個剛接手的搜索引擎優(yōu)化項目?
對于一個剛剛接手的搜索引擎優(yōu)化項目,有哪幾步操作的必要流程呢?今天我們就請來專業(yè)的優(yōu)化人士和您一起看一下,幫助你更好的運營項目。
1、對于客戶的基本情況(如企業(yè)文化、主要經營產品)進行分析,制定出適合的優(yōu)化方案。
2、根據分析的結果,挖掘適合的關鍵詞,按照熱門、普通和長尾詞進行分類,再與客戶進行溝通確認。
3、之后就是具體的實施,首先是站內優(yōu)化。每個頁面的排版布局要合理美觀,分類要清晰明確,站內文章要包含關鍵詞,并且注重用戶體驗度。
4、其次是站外優(yōu)化,要針對產品適用的人群,選擇合適的、流量比較大的網站做外鏈。
5、做好站內站外的優(yōu)化之后,要定期進行排名的跟蹤,分析流量。排名效果如果不理想的話,再重新修改優(yōu)化的方案。
6、定期與客戶進行溝通,讓對方了解優(yōu)化的進度。
7、按照要求完成合同的要求,在2個月內完成5個關鍵詞的上線,排名……還要進行定期的維護或者對客戶進行SEO的培訓。
以上的這七個方面就是我們?yōu)槟榻B的在剛剛接手搜索引擎優(yōu)化項目的時候需要策劃的步驟,按照這樣的計劃一步一步來就可以盡快的掌握相關的技巧了。文章來源于上海seo公司http://.cn/,轉載請注明出處
第二篇:搜索引擎優(yōu)化專員
什么是搜索引擎優(yōu)化專員
崗位職責:
1、長期跟蹤并深入研究Alexa、Google、Baidu和Yahoo的排名機制和優(yōu)化規(guī)則。熟悉各大搜索引擎蜘蛛爬行的規(guī)律規(guī)則及原理。對SEO有獨到的認知與見解。
2、能夠根據公司戰(zhàn)略發(fā)展要求,通過對網站的分析,制定前臺頁面和系統(tǒng)架構等全面的搜索引擎排名及優(yōu)化的整體解決方案。
3、分析網站及各頻道的關鍵詞解決方案,監(jiān)控網站關鍵字,監(jiān)控和研究競爭對手及其他網站相關做法,并圍繞優(yōu)化提出合理的網站調整建議。
4、通過第三方平臺或網站進行流量、數據或服務交換,或戰(zhàn)略合作聯盟,增加網站的流量和知名度。
5、撰寫相關部門的SEO操作文檔,對相關部門人員進行培訓,有效地推動其他部門的配合,完成網站的SEO工作。
6、找出避免被各大搜索引擎懲罰的方法,并且作好相應的補救措施。
崗位要求:
1、大專以上學歷,一年以上工作經驗,擁有廣泛的網絡營銷資源,熟悉SEO。
2、精通各大搜索引擎的搜索排名原理,掌握搜索引擎優(yōu)化技術,熟悉各類網站推廣技術。
3、有廣泛的互聯網知識,對于Web服務器、MySQL、域名、Linux等名詞不陌生,并了解其工作原理。
4、有過編程經驗,了解HTML、Javascript、ASP、PHP、CSS等頁面語言,精通HTML者為佳。
5、對于搜索引擎的原理有深入的了解,精通排名原理、PR規(guī)則、網站收錄、網站流量、Alexa排名等概念及方法。熟悉各個品牌蜘蛛、爬蟲的口味和喜好。
6、具有極強的分析能力,能從看似雜亂的數據中分析出合理的原因并制定應對方案,有市場洞察和分析調研能力。
7、有激情,工作積極主動有效,富有進取心,能夠勝任高強度的工作。
8.有豐富Google英文SEO實踐經驗者優(yōu)先;能效提高網站整體流量者優(yōu)先。
競價專員: 崗位職責:1.負責百度關鍵詞投放和日常維護,提升投放有效性,控制性價比;
2.負責關鍵詞投放表、投放文案的規(guī)劃和優(yōu)化,以及展示定位的規(guī)劃和優(yōu)化;
3.完成日常SEM廣告投放工作,對網站廣告投放Traffics,CTR等各項業(yè)務KPI負責;
4.負責相關數據分析挖掘,不斷優(yōu)化投放方式和頁面;
5.負責分析關鍵詞及網站內容的數據整合,向其他部門提供數據支持。
任職資格:1.大專以上學歷,1年以上SEM工作經驗;
2.豐富的百度、Google等搜索引擎在線廣告運營經驗;
3.深入了解百度、GOOGLE的搜索引擎推廣產品,擅長搜索引擎營銷;
4.較強的數據分析和挖掘經驗;
5.良好的語言溝通和文檔溝通能力;
6.思維敏捷,富有創(chuàng)新精神,對數據變化敏感,具備良好的分析判斷能力;
7.能有效應對壓力,自主工作能力,具備百度及谷歌工作經驗者優(yōu)先。
崗位職責
1、負責微信公眾號運營推廣,負責策劃并執(zhí)行微信營銷線日常活動及跟蹤、維護;
2、提高粉絲活躍度,與微信的粉絲做好互動,對微信粉絲的網絡行為進行分析與總結;
3、挖掘和分析網友使用習慣、情感及體驗感受,即時掌握新聞熱點,能夠完成專題策劃、活動;
4、深入了解互聯網,尤其是微信特點及資源,有效運用相關資源;
5、分析微信運營效果,線上線下內容活動的策劃與運營,提升影響力。
微信營銷主管/微博推廣專員
任職資格
1、大專以上學歷,有一年以上企業(yè)官方微信運營經驗;
2、酷愛玩微信,對微信有濃厚的興趣;
3、具備一定的文字功底,文筆較好,善于揣摩網民的閱讀喜好,找出他們喜歡關注的各種內容;
4、對互聯網傳播有較深的認識和看法;
5、有服裝、飾品、禮品等營銷經驗優(yōu)先考慮
第三篇:假如你剛接手一個班的班主任工作
假如你剛接手一個班的班主任工作,你將從哪些方面入手來搞好班級工作?
班主任是“學校中全面負責班級工作的教師,是學生班集體的教育者、組織者和指導者”。然而,當我們重視并突出班級的組織特性,遵循組織管理的一般原理、按照科層組織的實踐模式來落實班級教育時,班主任的角色就很容易被窄化為“管理者”。通過健全班級組織機構、建立班級規(guī)范體系,充分依靠學生來實施班級管理、組織班級活動,以求履行班主任職責也就在情理之中。
班主任作為“管理者”的意義在于,透過學校組織所賦予的權力性特征和師生關系中所秉承的權威性特征,班主任教師能夠對班級這樣一種特殊的社會群體進行外在聯結(與家長、與其他教師、與學校等)和內部整合,使班級形成一個對其成員具有較強的約束力和控制力的正式群體;同時,由于學校中的活動與交往,包括課堂教學、課外活動、社會實踐等,大多數情況下都以班級為基本組織單位,班主任教師便可經由自己在師生交往與互動中的主導地位來對個體或群體施加直接影響。兩相結合,班主任教師由此成為“學校領導實施教育、教學工作計劃的得力助手”。但是,班主任作為“管理者”的局限性也是顯而易見的。鑒于組織管理要從管理目標出發(fā),而班主任又是學校管理者實施和完成學校工作計劃的“得力助手”,因此,班主任首先需要考慮的就是如何貫徹、落實學校的工作計劃以達成學校管理目標。盡管從理論上說,學校管理目標的直接依據和最終目的都是為了實現教育目標,但職責的專門化和指標化、數量化的實際運作諸因素,使得事實上的學校管理目標十分易于疏離教育目標的根基??學習者的發(fā)展需要和發(fā)展水平。這樣,管得了“身”,顧不了“心”,管得了兩頭,顧不了中間,便成為班主任工作情況的真實寫照。
其實,班級組織的功能自足性(即以滿足學生個體自身的個性形成與社會性發(fā)展的需要為直接的、首要的目標)和半自治性(即必須依靠成人的指導和幫助才能發(fā)揮組織功能),決定了班級組織,一方面需要來自教師尤其是班主任教師的組織、協調、控制、監(jiān)督,另一方面更需要來自他們的尊重、理解、溝通、指導。學生作為發(fā)展主體的自主性、自覺性、能動性、創(chuàng)造性,正是在這種外在控制與內在誘發(fā)相交織的統(tǒng)一過程中,通過他們自己獨特的話語意境和行事方式來得以發(fā)現、予以發(fā)揮并得到發(fā)展的。從班級組織的目標和功能特性來說,后者往往比前者顯得更為重要,誠如《學會生存》所言:“如果任何教育體系只為持消極態(tài)度的人們服務;如果任何改革不能引起學習者積極地親自參加活動,那么,這種教育只能取得微小的成功。”從這個意義上說,班主任的角色更多地應是指導者,而非管理者。而教育領域里的所謂“指導”,即指導者基于學生個體的身心狀態(tài)和發(fā)展需要,基于班級群體的實際與可能,在思想意識、價值觀念和行為方式上給予個體或群體以適當的指點、引導,以求不斷達成教育目標的活動方式、方法,包括對學生個體或群體所進行的學習指導、生活指導、交往指導、人格指導、發(fā)展性向指導等。也正因為如此,班主任時常被人冠以“班級導師”之名。就我國中小學的教育實踐來說,“指導”之職一般多由班主任、德育處(或教導處等)和共青團、少先隊組織三方力量共同承擔。與班主任工作相一致,后二者皆負有團體指導之責,亦負有個別指導之責。只是就個體指導而言,德育處(或教導處)偏于“問題學生”、“異類學生”的訓導和轉化,共青團、少先隊組織偏于“先進學生”、“特長學生”的發(fā)現和發(fā)展。隨著心理教育得到普遍重視,涉及心理衛(wèi)生、心理健康問題的指導工作,則開始由專門的心理咨詢教師負責。學校中的這種指導工作體系可謂周全之至。可是問題卻在于,即使是德育處(或教導處等)、共青團或少先隊組織、心理咨詢室的指導職能得到充分有效地發(fā)揮,大量處于中間狀態(tài)的學生卻依然容易受到忽視。在此種狀態(tài)之下,班主任的指導職能就顯得尤為重要,否則,“素質教育面向全體學生的全面發(fā)展”就只能是一句空洞的口號。問題的另外一面還在于,工作對象的廣泛性、工作任務的復雜性、指導人員角色的多重性以及指導人員自身的局限性諸因素,使得他們即便是面對自己工作的“重點對象”,往往也會顯得力不從心,更何況對于德育處(或教導處等)、心理咨詢室來說,防患于未然應是上策,而此種“防范”若不依靠班主任教師履行其指導職能,顯然也是無法奏效的。
那么,班主任教師如何才能成為真正的指導者、全面有效地履行其指導職能呢?
第一,確立面向全體學生和實施主體教育的核心觀念。雖然在現實的社會環(huán)境和教育條件下,班級規(guī)模過大、管理頭緒過多、工作任務過重、論分排隊的壓力不減諸種因素,依然是困擾大多數學校深化教育教學改革的難題,是難以對班級教育與管理工作進行實質性調整的客觀原因,但這并未阻滯班主任教師在思想意識和教育觀念上的自我提高與自我更新。在全面推進素質教育的整體環(huán)境下,面向全體學生、實施主體教育,正是班主任教師由管理者轉向指導者首先應當確立的基本觀念。這種觀念昭示著,無論自己選擇了教育,還是教育選擇了自己,作為“班級導師”的師者都應當義無反顧,以積極的情緒、開放的心態(tài)、欣賞的眼光去對待每一位班級成員,讓每一位班級成員可以在自己的激勵和引導之下去認識自己、發(fā)現自己,去感受學習、生活的樂趣乃至體驗生命的意義。
第二,養(yǎng)成關愛、公正諸種品質,建立關愛??公正的教育模式。無論是教育經典的闡釋,還是莘莘學子的褒揚,都無不以關愛、公正諸種品質來說明教師的良好素質,稱道教師的人格魅力。對于班主任教師來說,關愛、公正更是第一位的品質,因為只有當學生感受到,無論他(們)是否引人注目,是否取得驕人成績,乃至是否遵守群體規(guī)則,自己都會和其他同學一樣,平等地受到班主任的關注,得到班主任的關心,他(們)的“向師之心”才會讓他(們)與班主任進行“真實的交往”,由此而注意到班主任提出的各種要求或建議,并用以指導自己的實際行動。所以,班主任教師要想對每位學生的成長確實有所啟發(fā)、有所引導,就必須做到尊重、關心他們,理解、體諒他們,信任、接納他們,以關愛之情、公正之心去感染、感化他們,逐漸建立起一種體現關愛??公正精神的教育模式。
第三,增進師生之間、學生之間的主體互動,促進學生的自主發(fā)展。學生的自主發(fā)展,有賴于學生主體性的尊重和發(fā)揮;而學生主體性的尊重和發(fā)揮,則有賴于師生之間、學生之間的主體互動,即雙方通過真實的交往(與角色扮演式的交往相對應)過程而產生的相互影響、相互作用。這種真實的交往固然需要雙方的默契,惟其在班級組織中,更需要作為組織內外人際溝通橋梁的班主任發(fā)揮重大作用。一方面,班主任通過創(chuàng)設教育情境、營造人際氛圍,可以實現師生之間在教育交往中的主體對話;另一方面,班主任經由與班級學生一起,確立組織目標、擬定活動計劃、創(chuàng)設活動情境、體驗活動樂趣,可以達到師生之間、學生之間在教育活動中的主體交融。正是在這種主體對話的情境和主體交融的氛圍中,班主任就能夠更好地了解學生,理解學生,關心學生,其指導才能真正切合具體的人、具體的事、具體的教育情境。也只有這樣,學生才能夠在班主任的路標指引下不斷增強解決問題的勇氣和信心,努力探索自主發(fā)展的具體路徑。
第四,把握人際溝通與互動的基本技能和方法,提高指導工作的藝術性。真正的指導必須建立在有效的人際溝通與互動基礎之上,班級指導自然也不例外。具體來說,班主任做到以下幾個側面,對于實現有效的班級指導尤為關鍵:(1)悉心觀察。在日常的學習和交往中,通過直接或間接地觀察學生經意或不經意的外在的言行舉止和神態(tài)表現,“讀”懂他們在一定社會情景下的所欲、所思、所為。(2)耐心傾聽。懂得傾聽既是一種受人尊重的品質,也是人際溝通與互動的基本要求。在班級指導中,角色的不對等和信息的不對稱,更需要班主任做一個傾聽者,要提供適當的場景,創(chuàng)造良好的氛圍,讓學生有時間、有心情去陳述、去解釋、去表現。(3)及時反饋。無論是直接的對話,還是間接的聯系,班主任對于學生所提供的各種信息,都要在作出分辨和分析后,根據具體的教育情境予以及時反饋。反饋主要不在于簡單的肯定或否定、表揚或批評、贊賞或懲罰,而在于激勵和行為指導。(4)設身處地。行之有效的及時反饋,建立在對學生的尊重和理解的基礎之上。在班級指導中,班主任要盡可能站在學生的立場上,感受他們的處境,體會他們的心情,由此而理解他們的態(tài)度、情感和觀念,分析他們如此表現的原因,以及預測他們在某些狀態(tài)下的心理反應和行為方式,從而提供切實、有效的指導。既然如此,從管理者到指導者,班主任是否仍然需要“靠”學生呢?答案依然是,該“靠”還得“靠”。只是此時,“靠”學生的真正含義,已經不再僅僅是依靠學生來強化班級組織的管理功能,更多地則是發(fā)揮其互動互促、自主發(fā)展的教育功能,是教育手段和教育目的的有機統(tǒng)一。
第四篇:搜索引擎優(yōu)化技術及發(fā)展趨勢
搜索引擎優(yōu)化技術及發(fā)展趨勢
一、引言
“搜索引擎”作為互聯網上提供信息服務的一種工具,現在幾乎已經是一個婦孺皆知的事物。按照中國互聯網絡信息中心在2006年7月19日發(fā)布的報告[1],中國網民中有66。3%經常使用搜索引擎,比半年前又提高了近1個百分點。
互聯網上的第一代搜索引擎出現于1994年前后,以AltaVista、Yahoo和Infoseek為代表,搜索結果的好壞通常用反饋結果的數量來衡量,或者說是“求全”。然而研究表明,當時的搜索引擎性能并沒有想象中那么優(yōu)秀,根據SteveLawrence和C。LeeGiles在1999年2月的實驗[2],全球11個主要的搜索引擎中,每個搜索引擎僅能搜索到互聯網上全部頁面的16%,甚至更低(圖1)。造成這種情況的原因,主要是這些搜索引擎的處理能力和網絡帶寬等方面的限制。
1998年,以Google為代表的第二代搜索引擎出現在互聯網上,其主要特點是提高了查準率,或者說“求精”。當時傳統(tǒng)的搜索引擎如Lycos等主要使用網頁中的關鍵詞進行搜索,而Google則使用了一種綜合頁面排名算法:它不僅考慮搜索關鍵詞,還考慮頁面間的鏈接關系,然后對整個網絡的鏈接結構進行分析和迭代計算,從而對頁面進行區(qū)分[3]。
第二代搜索引擎在技術和商業(yè)上都獲得了巨大成功,然而商業(yè)競爭和信息環(huán)境的變化仍在推動著它們不斷創(chuàng)新和發(fā)展。當前所謂的第三代搜索引擎主要增加了互動性和個性化等技術,為用戶使用搜索引擎獲取信息提供更好的體驗。至于互動性的評價標準是什么,以及第三代搜索引擎到底比第二代增加了多少價值,目前并沒有非常令人信服的研究結論。在以下的論述中,我們不對產品概念進行太多討論,而是就搜索引擎目前所面臨的挑戰(zhàn),以及它們的應對方略和發(fā)展趨勢進行梳理和闡述。
二、搜索引擎面臨的挑戰(zhàn)
面對瞬息萬變的環(huán)境,搜索引擎如果在技術上不創(chuàng)新進取,從信息服務質量的角度講,現在看來不錯的技術,將來很可能會落伍。不進則退,在搜索引擎領域體現得很明顯。關于搜索引擎的基礎技術,讀者可參見文獻[23],那么目前有些什么變化在影響著搜索引擎呢?
(一)Web的發(fā)展
1。信息大量增加
Web自產生以來,其信息量一直以幾何級數的形式遞增,近兩年來尤其如此。這主要有兩方面原因:首先是Web2。0[16]的用戶和以前有所不同,他們正在由單純的信息消費者向生產者與消費者雙重身份轉變;其次是DeepWeb[4]的發(fā)展。
如果說Web1。0是單純的網頁瀏覽模式,那么Web2。0則是通過了真正的個性化、去中心化和信息自主權,向著內容更豐富、聯系性更強、工具性更強而努力。盡管一切都還在探索中,但毋庸置疑,Web2。0已經成為互聯網新的發(fā)展趨勢。這種轉變,從模式上可以概括為是從單純的“讀”向“寫”和“共同建設”發(fā)展。這也更體現了互聯網的第一規(guī)則,“用戶需要表達”。只要有機會和便利,網民就不會滿足于只是被動的信息接受者,他們需要表達,希望駕馭自己的傳媒,而不是受其掣肘。在Web2。0實際應用中,除了原先的IM(InstantMessenger,即時通訊)、P2P(PeertoPeer,對等網絡)等得到新的發(fā)展,更是涌現出了很多社會化的新事物,比如Blog(Weblog,網絡日記)、RSS(RDFSiteSummary,站點摘要)、WIKI(網絡百科)、WB(WebBookmarks,Web文摘)、SNS(SocialNetworkSoftware,社交網絡)等。
這些新事物發(fā)展得非常快。以RSS為例,美國提供RSS內容的網站數目從2001年9月的1000余家激增至2004年9月的195000余家,短短的3年中增長了近150倍,市場的飛速發(fā)展令人矚目。而Blog站點的大量涌現,更是為每一位用戶都提供了暢所欲言的場所——據計世資訊(CCWResearch)的統(tǒng)計,2006年第二季度,中國注冊博客的總數量達到6800萬,比第一季度增長51。1%;中國博客用戶則達到2100萬人,比第一季度增加40。0%。這些無疑都在刺激著Web信息生產和消費的繁榮。
根據AlexandrosNtoulas等人的研究結果[5-6],每星期Web上新產生的頁面數大約為8%。而這個數字是非常保守的:他們的實驗是針對154個“popular”網站進行的,而實際上,那些大量涌現的新網站,如Blog網站,它們的成長速度遠遠超過這些所謂的流行網站。
關于DeepWeb的研究最近幾年也受到越來越多的關注,DeepWeb又被稱為InvisibleWeb或者HiddenWeb。JillEllsworth于1994年首次提出的InvisibleWeb概念,是指那些常規(guī)搜索引擎難以發(fā)現的內容。美國互聯網專家ChrisSherman和GaryPrice在他們著作《TheInvisibleWeb》中將InvisibleWeb定義為:“在互聯網上可獲得的,但傳統(tǒng)的搜索引擎由于技術限制不能或者經過慎重考慮后不愿意作索引的那些文本網頁、文件或其他高質量、權威的信息。”InvisibleWeb分為四種類型:不透明網絡(theOpaqueWeb)、私人網絡(thePrivateWeb)、專有網絡(theProprietaryWeb)和真正的隱形網絡(theTrulyInvisibleWeb)。我們認為使用“deep”更為合適,因為這些內容不是真的Invisible,只是藏在Web中較深的位置。
根據BrightPlanet公司的調查[4],2001年的DeepWeb大概是SurfaceWeb的500倍左右,而且還在快速發(fā)展。ChrisSherman和GaryPrice的估算則保守些,他們認為InvisibleWeb只有SurfaceWeb的2~50倍。但不論如何,DeepWeb在數量上都不容小覷。更為重要的是,DeepWeb通常都組織良好、信息權威、質量很高,而且時新性強。正因為這樣,國內外許多研究者都在克服重重困難,探索如何有效地發(fā)現這些有價值的信息,提供給更多用戶使用。各大搜索引擎要想鞏固和強化在搜索市場的地位,就必須重視DeepWeb,發(fā)展搜索技術,提高競爭力。對于垂直搜索而言,DeepWeb的作用更為突出。
Web信息的大量增加,使得搜索引擎面臨嚴峻的挑戰(zhàn)。任何技術都有它的適用范圍,超出這個范圍,其性能將嚴重下滑。以搜索引擎的檢索頁面集為例,粗略地說,當頁面總數沒有超過某個閾值時,搜索引擎工作良好,一旦頁面總數超過這個閾值,搜索引擎的查詢結果質量將急劇下降,用戶往往在查詢返回結果的前10位、前20位甚至前50位都找不到一個自己想要的結果。這一點在目前的幾大搜索引擎上都已經初現端倪,相信他們已經為此絞盡腦汁。
2。信息更新加快
Web上不但新信息涌現速度很快,信息變化速度也非常快。以網頁中的鏈接為例,根據AlexandrosNtoulas等人的研究結果[5],每星期將有25%的新鏈接產生,1年之后,將只有24%的原有鏈接仍然存在。Google等搜索引擎的成功在于正確地分析了頁面間的鏈接關系,為了保持這種成功,搜索引擎必須不斷地跟蹤鏈接結構的變化,或者說不斷地刷新自己所保存的相關信息。就以每周25%的新鏈接為例,這樣的鏈接更新速度要求搜索引擎至少每周重新計算一次所有頁面的Ranking值,否則便不能及時地、恰如其分地反映RealWeb上的當前狀況,失去搜索引擎所必需的時效性(timeliness)和時新性(freshness)。
3。信息表現形式多種多樣
隨著網絡速度的提高,Web上的多媒體信息也急劇增加,因此人們對多媒體信息的檢索需求也就隨之而來。傳統(tǒng)的信息檢索主要集中于文本的檢索,在多媒體方面的研究并不是很多。需求的發(fā)展使得目前各大搜索引擎都不斷推出自己的多媒體素材搜索產品,讓用戶可以在龐大的素材庫中進行檢索,如AltaVista可以讓用戶在5。5億個素材(包括5。4億個圖片、1100萬個視頻/音頻文件)中進行檢索,Google的素材庫也達到了4。4億的量級。然而,目前對這些多媒體素材庫的使用,大多還是標注、分類等方法,缺乏對圖像、音視頻內容的直接檢索。搜索引擎如何自動分析音視頻的內容,允許用戶按內容進行檢索,甚至在抓取音視頻素材時就按內容進行,這些問題將在今后較長一段時間內構成挑戰(zhàn),成為搜索引擎所要迫切解決的問題。
4。SEO正在蓬勃發(fā)展
自古有矛便有盾,有盾便有矛。SEO目前已經成為一個新興的互聯網行業(yè)。SEO是SearchEngineOptimization的縮寫,即搜索引擎優(yōu)化。從事這方面工作的就是SearchEngineOptimizer——搜索引擎優(yōu)化師。他們利用工具或其他手段使目標網站符合搜索引擎的搜索規(guī)則從而獲得較好的網站排名。無止境地追求更高排名是搜索引擎優(yōu)化師們的目標,因為他們知道,如果想讓用戶在煙波浩渺的Web中發(fā)現自己,獲得一個很高的排名無疑是非常有效的一種方法。
客觀地說,SEO的這種追求是很自然的,因為經濟利益的誘惑實在是太大了。根據USCensusBureau的調查,2004年美國的電子商務銷售額就達到692億美元,并以7。8%的年增長率在發(fā)展,遠遠超過美國的GDP增長。而根據ForresterResearch的預測,美國B2C的銷售額將于2010年達到3290億美元,占全部零售額的13%。如果不能讓用戶認識自己,何談電子商務呢?“搜索引擎優(yōu)化”正是讓大量用戶認識自己的一種有效手段。
搜索引擎優(yōu)化師們并不等于垃圾頁面制造者,但他們中的一部分的確為Web和搜索引擎制造著麻煩,為搜索引擎用戶制造著垃圾。雖然有良好素養(yǎng)和道德觀念的搜索引擎優(yōu)化師們仍然通過網站結構的優(yōu)化、頁面質量的提高等方法進行他們的工作,但那些不道德的搜索引擎優(yōu)化師們發(fā)現有一些“捷徑”更加有效,如在頁面上堆砌大量關鍵詞、使用重定位手段欺騙WebCrawler程序、構造LinkFarm來提高目標頁面的排名,等等[7,8]。他們運用這些手段欺騙搜索引擎,浪費了搜索引擎大量帶寬和時間,污染了搜索引擎的頁面集合,歪曲了排名結果,浪費了用戶的時間和精力,最后帶給用戶的只是大量垃圾。
這些垃圾制造者通常被稱為WebSpammer。他們所運用的手段有Boosting技術和Hiding技術兩大類:Boosting技術是指使用不道德的頁面排名提升技術,而Hiding技術是指對使用的Boosting技術進行隱藏,盡量不讓用戶和WebCrawler發(fā)現。
Boosting技術包括TermSpamming和LinkSpamming。TermSpamming是較早出現的技術,是指Spammer操縱Web頁面的正文,使其內容和眾多的用戶查詢盡可能地相關,方法是在Body、Title和AnchorText等處插入大量毫無關聯但用戶經常使用的關鍵詞。由于技術簡單,只需要把別人已有的內容進行重復、編織和黏合,所以至今很多Spammer還在采用這些TermSpamming技術,而且已經發(fā)展到自動化和智能化的程度。LinkSpamming則更具隱蔽性,WebSpammer通常使用HoneyPot或構造強有力的LinkFarm來提高目標頁面的排名。一個典型的LinkFarm可能包括幾千個支持頁面,而LinkFarm之間還可以構成威力更大的聯盟[7]。由于隱蔽性很強,對于LinkSpamming的探測非常具有挑戰(zhàn)性。
Hiding技術主要包括ContentHiding、Cloaking和Redirection。ContentHiding是指正文和頁面背景使用相同的顏色,從而掩蓋大量的無關正文,使得WebCrawler能夠發(fā)現而對用戶進行屏蔽。Cloaking是指對WebCrawler返回一個不同的頁面,從而欺騙搜索引擎。Redirection本質上和Cloaking一樣,但它是對瀏覽器而非Crawler返回不同的頁面。Hiding技術也是Spammer所常用的,有時利益如此誘人,以至于一些著名大公司也躍躍欲試,如2006年初的時候,寶馬德國公司網站(bmw。com。de)就曾因為使用了該欺騙技術而遭到Google的懲罰。
(二)用戶需求的發(fā)展
1。更準、更全、更新、更快
經過十幾年的技術發(fā)展和市場成熟,搜索引擎正日益滲透到人們日常生活的方方面面,人們對信息的獲取越來越依賴搜索引擎。在全世界網民中,搜索引擎的使用率僅次于電子郵件而位居第二。隨著對搜索引擎的使用不斷走向深入,網民的要求也在提高。從產品層面來看,準、全、新、快仍然是用戶對搜索引擎最基本的四個要求,而且用戶希望搜索引擎在這些方面能做得更好。
目前而言,圍繞這幾個問題,各大搜索引擎服務商都在做許多細致的工作,以力求趨向完美解決。比如“準”,需要更準確地理解用戶需求,不斷更新Ranking算法,同時又要嚴格控制垃圾網頁的干擾;“全”指的是全面,盡可能地把互聯網中“有價值”的網頁都索引下來,滿足最大用戶群的需要;“新”要求搜索引擎的抓取非常高效,能夠把最新的東西及時提取出來,同時還要不斷更新已抓取信息;第四點是“快”,不僅要讓用戶感覺速度很快,還要保持最大的系統(tǒng)穩(wěn)定性。“搜得準、搜得全、搜得新、搜得快”,這是一個綜合的服務過程,任何一個環(huán)節(jié)出了問題,都有可能導致用戶滿意度的下降。
2。使用更加方便和容易
隨著技術的發(fā)展,人們希望搜索引擎無處不在,在任何時間任何地點,要尋找信息時都可以使用搜索引擎。而隨著搜索引擎的逐步普及,越來越多的使用者(他們中很大一部分對計算機和網絡了解不多)希望搜索引擎的工具性進一步加強,最好在不覺察的情況下使用搜索引擎服務。人們甚至期望搜索引擎的使用如微波爐和洗衣機一樣方便和容易。
3。搜索個性化
搜索引擎的一個經驗就是,用戶很多時候并不確切地知道自己想要什么樣的結果,除非你把結果放在他的面前。所以用戶在使用搜索引擎時,很多時候相同表象的內容卻意味著不同的需要。比如對于同一個查詢詞,不同的用戶所需要的查詢結果可能是不同的。即使是同一個用戶輸入同一個查詢詞,他在不同的時間、不同的地點和不同的查詢背景下,希望得到的查詢結果也可能是不一樣的。
搜索引擎必須理解用戶的意圖和需求,才能非常到位地提供相關、準確的信息。要理解用戶的意圖,首先要理解用戶的行為和習慣,對不同人的查詢做不同的處理,反饋給用戶個性化的內容;其次要理解用戶查詢時的上下文背景,包括時間、地點、語義等。個性化的搜索,意味著向更加精確搜索結果的方向又邁進了一步。
(三)網絡的發(fā)展
1。網絡終端形式更加豐富
目前各種客戶端搜索工具的發(fā)展,使得用戶可以不到搜索引擎的網站,而是直接在工具終端搜索所要查詢的信息。手機、PDA等終端設備的不斷發(fā)展,將最終幫助人們擺脫電腦的制約,而各種嵌入式智能裝備的推廣普及,正在印證著這一趨勢。隨著網絡終端形式越來越豐富,很多應用找到了自己的位置,如手機電影;也有一些應用隨著網絡終端形式的發(fā)展而不斷拓展,如Gmail的手機版。那么作為網絡第二大應用的搜索引擎,也應該與時俱進,不斷拓寬應用之路。
實際上很多搜索引擎已經這么做了。如Nokia和Yahoo在2006年9月7日發(fā)布了面向Nokia便攜式終端的應用軟件“NokiaMobileSearch”。該軟件面向NokiaNseriesS60終端,用Yahoo的網頁、圖像搜索功能可向用戶提供10種語言的搜索結果。但問題的關鍵是,只在新的網絡終端上發(fā)布搜索產品還遠遠不夠,應該挖掘各種網絡終端的最佳應用模式,更好更方便地、個性化地服務用戶,用戶才可能喜愛這些新生事物。例如使用手機進行搜索時,完全可以根據時間和地點進行個性化服務。可以想象,如果快吃飯的時候使用手機查詢飯店,那么把手機持有者附近的知名飯店作為查詢結果返回,將會是一個很好的選擇。
2。網絡速度的提高
隨著基礎建設的發(fā)展和技術水平的提高,網絡速度一直在不斷提高。網速的提高對于搜索引擎的影響主要在兩個方面:首先極大地促進了頁面搜集的速度,能夠使搜集的頁面集合更全,覆蓋率更高,同時使頁面集合的更新更快,信息時效性更強;另一方面是在搜索結果的使用上,可以使用戶更快地打開頁面,下載自己需要的信息,包括pdf文件、圖像文件、音視頻文件等,給用戶更好的應用體驗。
網絡速度的提高提供了以上的可能性,而搜索引擎必須把這種可能變?yōu)楝F實。另外,搜索引擎還要抓住機會,比如隨著IPv6的發(fā)展,大力推進多媒體信息的搜索和使用。
3。無線網絡的發(fā)展
互聯網有從有線網絡向無線網絡發(fā)展的趨勢,隨著無線通訊技術的發(fā)展,無線傳輸速率、覆蓋面和穩(wěn)定性得到很大提高,3G的應用將進一步擴大這個趨勢。摩根斯坦利(MorganStanley)2006年4月初發(fā)布了一份106頁的名為“全球互聯網趨勢(GlobalInternetTrends)”的調查報告[9],這個報告包含了互聯網的調查和市場數據,從金融市場的角度分析了互聯網市場的風險和機遇。摩根斯坦利在這份報告中,試圖說明互聯網的發(fā)展趨勢已經從PC互聯網轉向移動互聯網;而規(guī)模遠超過PC用戶群,并且沒有經過深度發(fā)掘的手機和消費電子設備,已經成為了主導互聯網發(fā)展的主角。摩根斯坦利認為移動互聯網將帶來新的商機,在未來的數年內,移動互聯網很可能會出現類似于Google那樣的大服務商。
(四)來自非技術方面的挑戰(zhàn)
1。知識產權問題
Web上的知識產權保護是一個很復雜的問題——不僅搜索引擎公司覺得麻煩,用戶也很矛盾:一方面認為合法的知識產權理所當然應該受到保護,另一方面也希望自己能夠更方便地獲得更多權威的、有價值的信息。
事實上,Google公司不止一次地受到侵權起訴,Google使出渾然解數,也不過與原告?zhèn)兇騻€平手而已。國內的百度公司也因為提供MP3下載而屢屢為人詬病。知識產權的問題雖然最終要靠通過相應的法律解決,但某種程度上的技術處理,可以減輕侵權的壓力。
2。所在國法律
搜索引擎龐大的搜羅萬象的能力并非總是它的優(yōu)勢,有時正是因為在這一點上違反了所在國的相關規(guī)定而遭到封鎖。比如“網頁快照”是Google非常好的一項功能,但在中國內地因為與相關法規(guī)抵觸而被封鎖,而該項功能的封鎖,使得它的不少用戶不得不轉向其競爭對手的產品。類似這種問題,是搜索引擎本地化時首要考慮的問題。
3。網絡誠信問題
網絡誠信不只是搜索引擎發(fā)展中所遇到的難題,而且也是整個互聯網發(fā)展中的一個非技術瓶頸。這里以“點擊欺詐”為例來說明問題的嚴重性。
“點擊計費”是目前主流搜索引擎商普遍采用的廣告收費模式,他們通過廣告點擊率向廣告主收取費用,其廣告收費=有效點擊次數×廣告投放價格,其中有效點擊次數是指排除點擊欺詐后的次數。點擊欺詐自互聯網誕生之際就出現了,成為全球搜索引擎商們的一大心病。雖然幾乎每個搜索引擎商都有自己的反欺詐系統(tǒng),但判斷某個點擊是“有效”還是“惡意”其實是非常困難的一件事。點擊欺詐在中國更是泛濫到無法收拾的地步:靠點擊廣告掙錢甚至已經成為一個行業(yè)!點擊欺詐的泛濫告訴我們,網絡誠信遠遠沒有我們預期的那么好。
2006年3月,網絡搜索巨頭Google宣布,公司同意支付最高9000萬美元費用與點擊欺詐案的原告達成和解。雖然Google這位行業(yè)老大終于愿意率先和廣告主們握手言和了,但我們擔心,Google能夠獨自承擔整個行業(yè)的重責嗎?恐怕這由非技術因素引起的挑戰(zhàn),最終還要靠技術手段把它們控制在搜索引擎公司能夠承受的范圍內。
三、搜索引擎應對方略
針對以上各種挑戰(zhàn),搜索引擎如何應對呢?我們對搜索引擎所采用的方略和相關的成型研究進行梳理,歸納為以下幾點予以介紹。這幾點和上面介紹的挑戰(zhàn)并沒有一一對應的關系。
(一)多元化
針對形形色色的用戶,針對用戶各種各樣的需求,搜索引擎已經到了細分市場的時候,多元化是搜索引擎的必然之路。一方面,針對大量的普通用戶,搜索引擎仍然致力于最廣泛、最全面的信息檢索;另一方面,針對檢索目的明確、查詢要求精準的用戶,搜索引擎在特定領域和行業(yè)中發(fā)展,推出更有針對性的垂直搜索系統(tǒng),為這些專業(yè)人士更好地服務。
1。通用系統(tǒng):其定位是一個好的推薦系統(tǒng)
在通用系統(tǒng)層面,搜索引擎的定位更加清晰:它只是一個好的推薦系統(tǒng),對于它的返回結果,用戶必須經過自己的過濾和選擇,而不是把排在前一二位的結果直接拿來使用。
作為一個好的推薦系統(tǒng),搜索引擎著力做好這樣幾件事情:①信息盡量全而有價值;②信息具有良好的時效性和時新性;③信息查詢盡量準確,或者說通過盡可能少的交互,引導用戶找到其所需要的結果;④用戶界面友好;⑤查詢速度快。后面幾個小節(jié)中,我們會有針對性地討論這些方面。
2。專業(yè)系統(tǒng):要求非常精準,有專業(yè)特色
專業(yè)搜索系統(tǒng)又稱垂直搜索(verticalsearching)系統(tǒng),它是搜索引擎的細化和延伸,在最近幾年發(fā)展得如火如荼。垂直搜索引擎和通用搜索引擎的最大區(qū)別,是對網頁信息進行了一定程度的結構化提取,然后將提取的數據進行深度加工處理,為用戶提供針對性更強、精確性更高的服務。
垂直搜索引擎的應用方向很多,比如地圖搜索、音樂搜索、圖片搜索、文獻搜索、企業(yè)信息搜索、求職信息搜索、購物搜索、房產搜索、天氣搜索……幾乎各行各業(yè)各類信息都可以細化成相應的垂直搜索對象。垂直搜索引擎一般在規(guī)模上比通用搜索引擎要小,因為它只涉及某個特定的領域。垂直搜索引擎在技術上也需要信息搜集程序(但只在一些特定站點活動,并且不是對所有的鏈接都感興趣)、中間處理(分詞、信息提取和索引等)程序以及為用戶提供查詢服務。在信息搜集方面,Crawler除了使用各種技術在限定領域內面向主題抓取盡可能全的信息外,從領域內的各種系統(tǒng)和數據庫中獲得信息更為重要,因為這些信息更為權威、也更有價值。在中間處理上,最大的挑戰(zhàn)是如何利用模版、規(guī)則或Ontology技術,整理所抓取的紛繁蕪雜的數據,從中提取結構化信息,然后使用關系模型或XML等半結構化模型進行組織。只有經過有效組織,才能提供有針對性的、更為精準的查詢服務。
CiteSeer、GoogleEarth、YahooShopping、Shopping。com等都是代表性的垂直搜索引擎。計算機論文搜索引擎CiteSeer(http://citeseer。ist。psu。edu/cs)是NEC研究院建立的一個學術論文數字圖書館,它提供了一種通過引文鏈接檢索文獻的方式。GoogleEarth使用了公共領域的圖片、受許可的航空照相圖片、KeyHole間諜衛(wèi)星的圖片和很多其他衛(wèi)星所拍攝的城鎮(zhèn)照片,并將它們和GIS布置在一個地球的三維模型上,使人足不出戶就可以在名川大山間翱翔,在摩天樓群中俯瞰。YahooShopping和Shopping。com是美國最大的購物搜索引擎,其中Shopping。com創(chuàng)建于1999年,每月可輸送2000萬個有效銷售給商家,2005年8月被eBay以6。2億美元收購。
至于國內,垂直搜索市場更是群雄紛爭,令人眼花繚亂。然而問題是,大家在紛紛尋找好的贏利模式的時候,往往忽略了應該有一個好的技術作為支持。這是一個很可悲的現象。
(二)搜索質量提高
1。過濾垃圾頁面
Web垃圾信息泛濫,不僅浪費了搜索引擎的帶寬和時間等寶貴資源,更重要的是,它們的存在大大降低了搜索引擎的查詢質量和查詢效率,極大地影響了用戶對Web信息的有效使用。搜索引擎主要在兩個步驟上進行反擊:①在Crawler抓取階段即進行過濾,濾去那些質量極低、毫無內容可言的“高純度垃圾”,這樣可以節(jié)省網絡帶寬、費用、抓取時間、存儲空間等,并且大大減輕了下一步在信息分類、信息組織和查詢匹配時的負擔;②在信息分類和組織階段,計算網頁信息的可信度,在用戶查詢信息時,把可信度作為一個重要因子對查詢結果集進行排序,從而提高查詢結果的信息質量,滿足用戶的實際需要。
搜索引擎公司傳統(tǒng)上的做法是,聘請專業(yè)人員,不斷地搜查探測那些惡意欺騙者。當確認了一個Web垃圾網站后,搜索引擎停止對它的搜索和索引。然而這個探測過程非常昂貴而且緩慢,鑒于此,搜索引擎公司、國內外知名大學和研究機構近幾年開始從不同的角度研究和尋找更好的方法,其中有代表性的研究成果如下:
(1)Google在2002年就注意到Web垃圾信息日漸泛濫的問題,提出要在自己的排名算法中,加大頁面質量的權重[10]。
(2)Microsoft對近6億個頁面進行了研究,從URL屬性、HostName的解析、鏈接關系、內容特點等幾方面分析了Web垃圾頁面的特點,并試圖按照這些統(tǒng)計屬性來確認Web垃圾頁面[8]。
(3)Stanford的Gyongyi等人受Haveliwala的“Topic-SensitivePageRank”思想的啟發(fā),認為好的頁面所指向的鏈接頁面通常也是好的,于是他們提出了TrustRank的概念,依靠一個人工選取的好種子頁面集,計算他們的傳播結果,從而對Web站點按可信度排序,進而把所有站點分為“好”和“壞”兩種[11]。他們還對Webspam進行了分類研究[12],并對Linkspam聯盟技術做了分析[13]。Gyongyi等人提出TrustRank的概念后,受到了廣泛關注,陸續(xù)有很多研究者進行類似的研究,如匈牙利科學院的AndrásA。Benczúr等人,以及美國LehighUniversity的BaoningWu和BrianD。Davison等。
雖然很難見到Google、Yahoo等搜索引擎關于如何去除垃圾頁面的技術報告,但他們一直在做著這樣的工作,并且已經有所應用。這一點從相關產品的使用體驗中可間接地驗證。
2。提高查詢準確度
對于一個查詢,搜索引擎動輒返回幾十萬、幾百萬篇文檔。面對大量的返回結果,用戶只能在其中瀏覽篩選。實際上,用戶大多數時間都沒有足夠的耐心去瀏覽多屏結果。根據Silverstein等人的研究結果,有85%的查詢只需要給出前10個結果[14]。
如何使用戶想要的查詢結果出現在返回集合的前列(最好是第一屏),這個本來就具有挑戰(zhàn)性的問題隨著搜索引擎檢索頁面集的增大而越來越急迫。目前解決這個問題的主要幾種方法是:
(1)通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用途,包括:①相關度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關的程度),哪些不相關,通過多次交互逐步求精;②智能代理跟蹤用戶檢索行為,分析用戶模型;③用戶注冊使用,以便更好地分析用戶的使用特點和喜好。
(2)使用正文分類技術將查詢結果分類,使用可視化技術顯示分類結構,用戶可以有選擇性地瀏覽自己感興趣的類別(GoogleNews就采用了這種方法)。
(3)使用鏈接結構分析進行站點聚類或頁面聚類,然后將信息推薦給用戶(Vivisimo公司就是采用對搜索結果自動聚類的辦法來滿足不同類型用戶的需要)。
我們認為最有力的方法是改進排名算法。Google的排名規(guī)則一直在變化中,2001年基于HillTop算法進行的優(yōu)化是比較明顯的變化(HillTop認為來自相同主題的相關文檔鏈接對權重計算的貢獻更大),現在又到了迫切需要算法更新的時候了。據說Google正在研究“多倍索引信息獲取系統(tǒng)(MIBIRS)”,可以使搜索引擎的網頁索引數量達到驚人的1000億幅甚至更多,我們翹首以盼。
(三)搜索能力加強
1。對多媒體搜索的支持
隨著多媒體信息在網絡上的大量涌現和人們對多媒體信息需求的高漲,知名搜索引擎如Google、Yahoo、AltaVista、Lycos、AllTheWeb等對于多媒體搜索的能力也在不斷加強。它們或在一個統(tǒng)一的用戶界面上提供資料類型選擇,或直接提供獨立的多媒體搜索引擎。另外,各種圖像搜索引擎和各種娛樂搜索引擎也不斷涌現。這些系統(tǒng)可以說在很大程度上滿足了用戶的需要,然而它們對多媒體搜索的支持都還在初級階段,基本上是基于文本關鍵詞和自動標注進行多媒體信息檢索,缺乏基于圖像和音視頻內容進行比對檢索的功能。
一般的說,多媒體信息的內容表示可分為物理層(如信號樣本、像素等)、特征層(如圖像的顏色和紋理、語音頻譜)、語義層內容(如語音的腳本、音樂的音符、圖像中的物體形狀和人臉)等三個層次。基于內容的檢索一般針對后兩個層次。基于特征層次的內容檢索主要應用于以媒體實例為輸入的查詢方式。檢索時,首先對輸入的實例提取特征模板,再與檢索源中的數據相匹配。相關研究主要圍繞著檢索的快速性和準確性問題展開,具體涉及特征選取、匹配策略、算法優(yōu)化等。
關于圖像處理和檢索的專利較多,根據美國專利網的檢索結果,與圖像檢索相關的專利達186項,但是很少見它們應用于實際系統(tǒng),而用于網絡多媒體搜索引擎的專利,則更是罕有。2004年Lowe提出了SIFT(Scale-InvariantFeatureTransform)[15]特征,該特征具有旋轉、縮放不變性,并且對光照、仿射變換以及視角變化等都具有相當程度的魯棒性。除此之外,每一個SIFT特征都具有很強的描述和區(qū)分能力,因此非常適用于圖像實例檢索。但在對海量數據的檢索中,如何降低其復雜度需要進一步的深入研究。
在音頻檢索方面,常用的特征包括:短時能量、頻譜、過零率、美標度倒譜等。針對大數據量檢索問題,很多工作集中在特征匹配的策略優(yōu)化上。基于內容的視頻檢索可以看做圖像和音頻檢索的擴展,所用特征除圖像和音頻中的常用特征以外,還包括一些專有特征:如物體運動、鏡頭切換等。關于音視頻檢索的專利也不少,根據美國專利網的檢索結果,與音頻和視頻檢索相關的分別為28項和80項,但是應用于網絡多媒體搜索引擎的專利卻很少。
語義層次上的內容檢索研究相對更為困難一些,下面幾個方面是最近幾年進展較快的:場景分類技術、語音數據識別、語音說話人分割、視頻數據中精彩片段提取等。然而這些技術距離大規(guī)模檢索應用還有相當的距離。
在這里值得一提的是,面對咄咄逼人的Google和Yahoo,法國總統(tǒng)雅克·希拉克在2006年新年講話時宣布,法國決定聯手德國,抓住多媒體搜索這個機會,開發(fā)“真正的多媒體搜索引擎Quaero,以應對Google和Yahoo帶來的全球挑戰(zhàn)”。
Quaero的拉丁語意是“我搜”,該項目的目標是,搜索時無須借助文字描述就能“讀懂”音頻、圖像和視頻的內容。目前,這樣的圖片識別程序已經存在。法國中型軟件公司、Quaero項目成員LTUTechnologies向美國聯邦調查局(FBI)提供電腦取證分析工具,用于分析被扣押的硬盤中的圖片,并將其與已知的戀童癖罪犯的照片相比對。另外他們還有一些可將語音轉化為文字的音頻解析程序。Quaero項目組面臨的挑戰(zhàn)是,如何改進這些工具以提高搜索準確度,同時提高速度,適應大數據量的檢索。
目前參與Quaero研發(fā)的主要公司和機構包括法國電信、湯姆遜公司、法國視聽研究所、德國電信、貝塔斯曼集團和西門子公司等。Quaero項目預計在未來5年內需要投入10億~20億歐元,所需資金將由法、德兩國政府以及兩國企業(yè)共同承擔,其中法國政府已計劃5年內投資2。5億歐元。這個項目究竟走勢如何,我們將拭目以待。
2。對DeepWeb的搜索
DeepWeb已經擁有不少研究者,如Stanford和UIUC的學者們,他們分別搭建了HiWE[16]和MetaQuerier[17]兩個很好的原型系統(tǒng)。也有一些搜索引擎能夠搜索DeepWeb信息,如www.tmdps.cn、www.tmdps.cn。com、www.tmdps.cn等。然而它們或者太小,或者搜索Invisible信息的能力太弱,所以使用起來很多時候不能得心應手。
幾大主流搜索引擎尚未提供DeepWeb搜索功能,主要原因是技術上還不夠成熟。然而“需求是創(chuàng)新之母”,我們期待在不久的將來能使用Google、Yahoo等查詢DeepWeb信息,或者是基于DeepWeb查詢的搜索引擎迅速發(fā)展起來,為我們提供更好的服務。
3。ArchiveSearch
搜索引擎通常能夠提供的信息通常只是最近在網上有的信息,而很多情況下我們需要了解網上曾有的歷史信息,甚至需要將不同時間的信息進行歸納、比較和綜合。另外,對于搜索引擎來說,把自己辛辛苦苦搜集來的信息輕易拋棄也是很可惜的事。
這方面的研究國內國外都曾開展過,如InternetArchive、UCLA的WebArchive[18]和北京大學的WebInfoMall(http://www.tmdps.cn/)作為搜索引擎的領袖公司,一直在進行著前沿研究,并不斷推出新的產品。就在不久前,Google專門為中小企業(yè)推出了集成了Gmail、Gtalk、GoogleCalendar和GooglePageCreator等免費服務的GoogleAppsforYourDomain項目。接著Google又跟LitCam和UNESCO(教科文組織)合作,推出了一個專為教育和文化事業(yè)而設置的集成服務——Google知識工程。Google還推出了新搜索服務——SearchMash。com作為Google的子搜索網站,SearchMash采用了圖文結合的方式顯示搜索結果,左邊為文字搜索結果,右邊為符合度最高的圖像搜索結果。另外,Google正在研究“多倍索引信息獲取系統(tǒng)(MIBIRS)”,據說通過該項技術,可以使Google搜索引擎的網頁索引數量達到驚人的1000億幅或更多。Google對于語義搜索的研究也在進行中。
(2)Microsoft(http://research。microsoft。com/)對于搜索引擎這個龐大的市場當然不肯放過。微軟亞洲研究院(http://research。microsoft。com/asia/)早在2001年底,便開始了有關互聯網信息檢索技術的研究,幾年來發(fā)表了很多高水平的論文,并不斷把這些研究成果轉化為技術。他們的代表性成果包括對網頁細分的“數據模塊化的Web檢索方法”、搜索動態(tài)網頁數據的“深層網絡數據發(fā)掘技術”,等等。對于分散于互聯網上的圖像資源,他們開發(fā)出的智能化圖片搜索技術,已可自動識別與分類搜索結果。在2006年微軟創(chuàng)新日上,微軟亞洲研究院集中展示的38項技術中,搜索類技術就多達11種,包括對文字、圖像、新聞事件等進行搜索,應用涵蓋了手機移動、IPTV等多個方面。微軟亞洲研究院院長沈向洋博士于2006年9月在北京宣布,微軟亞洲研究院將在原有四大研究方向:新一代多媒體、新一代用戶界面、無線及網絡技術和數字娛樂的基礎上,增加互聯網搜索和挖掘為該機構的第五大研究方向。
(3)Yahoo!(http://www.tmdps.cn)……就是例子。前面提到的法國和德國聯手開發(fā)Quaero搜索引擎的計劃也能給我們啟示。在上述包羅萬象數據(信息)的大搜索的概念下,本土努力將更有天然的優(yōu)勢,而一定的國家行為可以使這種優(yōu)勢發(fā)揮出最好的效益來。
本文www.tmdps.cn www.tmdps.cn A5首發(fā),轉載請保留。
第五篇:搜索引擎優(yōu)化方法總結
搜索引擎優(yōu)化方法總結
有了做搜索引擎優(yōu)化的正確思想認識,接著就是探討搜索引擎優(yōu)化的方法了。搜索引擎優(yōu)化可以從站內優(yōu)化與站外優(yōu)化兩個方面去考慮。下面文軍信息給大家詳細介紹一下從網站源代碼入手該如何優(yōu)化和其他一些優(yōu)化方法總結。
從網站源代碼做優(yōu)化主要從以下八個方面去考慮。
1、盡可能少地使用javascript來做與內容相關的事情。
盡可能少地使用javascript來做與內容相關的事情。例如用document.write去顯示正文。這樣會影響搜索引擎對頁面內容的搜索。
2、千萬不要去javascript來實現你網站的導航。
Javascript腳本導航,方便了你但很可能會將搜索引擎拒之門外。那樣會讓搜索引擎迷失方向。
3、每個頁面的關鍵字盡可能出現在頁面的標題,也就是頭部的Title標簽中。
當然,要合理應用,不要太長,更別用大量與頁面內容無關的網絡熱門關鍵字。因為那就不是優(yōu)化而是在作弊。
4、將css與javascript全部用下邊的方法分離到外部文件中去。
讓html代碼最大可能的只是用來顯示實際內容。
5、采用xhtml代碼編寫頁面,拋棄傳統(tǒng)Table布局模式,去掉頁面中的例如font/bgcolor等格式化控制標簽。
用符合web標準的代碼來制作頁面。這樣能夠讓xhtml代碼結構化、語義化。提高頁面代碼的可讀性。
6、讓頁面代碼體積變得更小。
采用了上邊的方法你會發(fā)現你的html代碼會變得非常小,當然如果可以的話。讓它變得更小。
太大的頁面會影響搜索引擎的處理速度。一般通過xhtml+css設計的網頁,html代碼應該可以控制在50K以內。大家可以去看一下用web標準重構得比較好的網站。
7、用好圖片的alt標簽,合理的使用頁面關鍵字去描述圖片,這樣能增加頁面的關鍵字密度。
搜索引擎畢竟不是人腦,它不能讀懂圖片內容然后生成概要。因此alt屬性的加入非常重要。使得合理的頁面關鍵字來描述圖片,會使得你的頁面對搜索引擎更友好。
8、合理使用恰當標簽,體現文檔結構。
盡量在每個頁面代碼中合理使用標簽并讓你的關鍵字出現在標簽中,讓頁面的文檔結構更清晰。這里只是將在頁面制作的過程中涉及到的一些細節(jié)問題拿出來和大家探討一下。由此也可以說明為什么基于web標準設計的網站會更有利于SEO了。文軍信息建議如果您不打算花錢去請專業(yè)的SEOER來為您的網站做優(yōu)化,那么可以讓頁面制作人員在制作上注意一些細節(jié)。相信這樣免費的一些細節(jié)也能達到一個比較好的效果。
下面文軍信息給大家介紹其他一些SEO優(yōu)化的技巧:
1、使用位置導航圖: 一個讓瀏覽者進入后不知東西的頁面很難留住人,瀏覽者可能馬上離開,提供一項位置導航圖不僅可以讓用戶體驗更好,同時可以讓搜索引擎的支柱程序更正確更快速的載入并記錄網站相關內容,這樣有助于提升網頁PR值。
2、了解搜索引擎到底要什么: 搜索引擎對于收錄頁面并如何判定頁面的PR值有一套規(guī)則,應該閱讀它們,使優(yōu)化向著搜索引擎的知道原則方向去做使使網站被收錄的最快最有效的方法。
3、使用關鍵字語句: 關鍵字沒必要只限于一個單詞或字符,事實上,并不是這樣的.使用關鍵字語句可以讓你更好的將內容集中面向目標客戶群體。
4、使用合適的關鍵字: 使用最能概括您網站內容的關鍵詞,而這個關鍵詞一般也應該是普通的瀏覽者平常在搜索某一類產品像您的網站所列的一類產品所習慣使用的.直接使用不同的索引擎來試驗一下,看下您所設置的關鍵詞在搜索引擎下得到的結果,并改善。
5、將關鍵字置于最前面。當構建頁面內容時,確保您所使用的引導瀏覽者登錄到您網站的關鍵詞出現在第一個句子當中,而這點正是搜索引擎在搜索結果中顯示出來的。
6、雇傭專業(yè)人士.并非所有的人都有非常專業(yè)的文字表達能力.雇傭專業(yè)人士進行網站內容的編排可以有助于使網站頁面看上去條例清晰,簡潔,內容集中,這樣的網站用戶感覺更舒服,更愿意回頭再瀏覽。
7、使用容易記的網址.對于一個容易吸引人,容易記的網址是無可替代的.務必使網址簡短,好記.,這就是為何谷歌搜索這個字眼引擎進入我們的日常語言的重要原因。
8、在整個網頁中都使用關鍵詞: 一旦發(fā)現關鍵字的數量降下來了,一定要毫不吝惜的在頁面內容中多加入些關鍵詞.關鍵詞是頁面內容當中非常吸引瀏覽者的一個方面,努力確保關鍵詞所指向的內容為受眾所認可.9、更新內容: 一旦完成了相應的優(yōu)化內容并獲得了較好的PR值后,還必須做到網站內容的及時更新,一定要記住競爭者隨時都在想一些更能吸引您現在顧客的方法,您的顧客可能會被挖走.如果網站內容很舊而且又很久都沒有更新的網站很難帶來回頭瀏覽客,更別談留住瀏覽者,即便是您的網站在搜索引擎的搜索結果中非常靠前。
10、鏈接到其它的網站: 使網站鏈接到其它相關聯的網站對于提升PR值是至關重要的.不要使用垃圾信息的方式(通過博客鏈接或者鏈接到一些根本就沒有內容的“鏈接工廠”),而是使一些內容關聯的,高質量的網站鏈接到您的網站。一系列的互惠的鏈接對于對于突出網頁并提升PR值是非常重要的一個環(huán)節(jié)。