第一篇:谷尼Goonie互聯網輿情監控系統技術白皮
Goonie互聯網輿情監控系統
技術白皮書
谷尼國際軟件(北京)有限公司
二〇一〇年八月
目錄 2 3 4 5 系統概述........................................................................................................................................1 系統結構........................................................................................................................................1 系統特點........................................................................................................................................2 性能指標........................................................................................................................................3 功能描述........................................................................................................................................4 5.1 5.2 5.3 5.4 5.5 5.6 5.7 6 7 熱點話題、敏感話題識別...................................................................................................4 輿情主題跟蹤.......................................................................................................................4 自動摘要...............................................................................................................................4 輿情趨勢分析.......................................................................................................................5 突發事件分析.......................................................................................................................6 輿情報警系統.......................................................................................................................6 輿情統計報告.......................................................................................................................6
運行環境........................................................................................................................................6 系統案例........................................................................................................................................7
谷尼國際軟件(北京)有限公司制 系統概述
網絡輿情形成迅速,對社會影響巨大,不僅需要各級黨政干部密切關注,也需要社會各界高度重視。該方案可應用在政府的新聞監管、輿論監督等部門。
互聯網輿情監控系統是一套利用搜索引擎技術、文本處理技術、知識管理方法,通過對互聯網海量信息自動獲取、提取、分類、聚類、主題監測、專題聚焦,實現用戶對網絡輿情監測和熱點事件專題追蹤等需求,形成輿情決策庫、輿情簡報等分析結果,為客戶全面掌握輿情動態,做出正確輿論引導提供分析依據。
谷尼互聯網輿情監控是以信息采集技術為核心,應用信息采集技術、內容管理技術、知識管理技術、信息分類技術,實現網絡輿情監測和新聞熱點追蹤、新聞監管等功能需求。為客戶全面掌握群眾思想動態,做出正確輿論引導,提供分析依據。系統工作流程如下: ? 信息采集:互聯網信息實時監測、采集、內容提取及排重;
? 信息處理:對抓取的內容進行自動分類聚類、主題檢測、專題聚焦等; ? 信息服務:將采集并分析整理后的信息直接為用戶或為用戶輔助編輯提供信息服務,如自動形成輿情信息簡報、追蹤已發現的輿論焦點等。系統結構
總體來說,該監控管理軟件的結構和特點如下:
谷尼國際軟件(北京)有限公司制 系統特點
該項目與國內外互聯網輿情監控系統或類似功能的系統比較,具有自己顯著的技術特點,如允許用戶定制輿情監控的范圍、方式等,具體如下: ? 支持網頁編碼自動識別 ? 支持URL去重識別
? 支持正文自動識別抽取,無須標簽配置
谷尼國際軟件(北京)有限公司制
? 支持分頁采集 ? 可設置采集頻率 ? 支持分布式部署 ? 強大的信息采集功能 ? 智能化的中文信息處理
? 全面的敏感信息分布式檢索系統 ? 分類、聚類等中文智能處理技術廣泛采用 ? 實時增量備份原則
? 合理的模塊化結構及方便的分類監控 ? 靈活的調度算法
? 支持新聞、博客、論壇、貼吧的采集監控 ? 基于內容相似性去重識別 ? 支持互聯網關鍵詞搜索采集入庫 ? 支持敏感詞過濾提取 ? 支持熱點發現 ? 支持網頁快照 性能指標
? 穩定性強:在機器不斷電的情況下,采集系統能7×24不間斷持續運行,不出現死機、無故重啟、資源耗盡等問題;無需人工監控。
? 性能優越:在普通網絡帶寬情況下,單機PC的采集能力達到30頁面/秒,網絡帶寬高的情況下可達到60-100頁面/秒。? 效率優良:采集器所耗費的帶寬的利用率超過80%。? 抽取精確:正文的抽取準確率98%,誤抽率不到1%。? CPU和內存的占有率不超過50%。
谷尼國際軟件(北京)有限公司制 功能描述
5.1 熱點話題、敏感話題識別
可以根據新聞出處權威度、發言時間密集程度等參數,識別出給定時間段內的熱門話題。利用內容主題詞組和回貼數進行綜合語義分析,識別敏感話題。
5.2 輿情主題跟蹤
分析新發表文章、貼子的話題是否與已有主題相同。
是根據文檔內容間的相關程度進行分組歸并。聚類不需要類別及相關訓練樣本。聚類可以發現當前輿論焦點,或者相關文檔的查找.通過對同一個階段搜索到的大量信息進行聚類,我們可以很方便地發現當前關于什么類別的文章數量更多,那些信息之間的關系更緊密,這樣我們可以很直觀地了解到當前輿論的焦點,以及各個輿論點之間的聯系緊密程度。
5.3 自動摘要
對各類主題,各類傾向能夠形成自動摘要。
信息自動摘要的中心思想是讓用戶在查看搜索結果時候,無需點擊進入每一個谷尼國際軟件(北京)有限公司制
搜索結果去了解具體內容,而自動在搜索結果條目下顯示摘要信息。這些“摘要”幫助用戶迅速了解搜索結果的主要內容,提高了工作效率。
5.4 輿情趨勢分析
分析某個主題在不同的時間段內,人們所關注的程度。
谷尼國際軟件(北京)有限公司制
5.5 突發事件分析
對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌并預測事件發展的趨勢。
5.6 輿情報警系統
對突發事件、涉及內容安全的敏感話題及時發現并報警。
5.7 輿情統計報告
根據輿情分析引擎處理后生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內容,提供決策支持。運行環境
操作系統:Microsoft Windows XP/NT/2000/2003/ 數據庫為:SQL2005/2000 谷尼國際軟件(北京)有限公司制
服 務 器:CPU3.2G/內存2G/硬盤40G以上 帶寬要求:2M獨享以上
服務器數量:2臺(1臺采集監控、1臺 數據庫服務器)應用規模較大,可以采用多服務器集群的方式 系統案例
國家部委成功案例 國家知識產權局 國家郵政局 國家農業部
總后勤部 空軍司令部......地方政府成功案例 衡水市委宣傳部 沈陽市委
郴州市委宣傳部 淮安市委宣傳部 河南永城市委
河南永城市公安局 石家莊市政府 四川人民政府 福建省教育廳 31個省市郵政局......谷尼國際軟件(北京)有限公司制
知名企業成功案例 中國第一汽車集團 中石化西北油田分公司 中石油華北油田分公司 蒙牛乳業(北京)有限公司 河南綠能高科有限公司 中國網通集團河南公司 中國聯通北京分公司
山西陽泉煤業集團有限責任公司 北京圖書大廈有限公司......其它成功案例
人民郵電報業集團-中國信息產業網 深圳日報報業集團 深圳新聞網 甘肅日報報業集團 每日甘肅網 檢察日報社-正義網 麗水日報社-麗水網 南京大學 河北師范大學
第二篇:谷尼網絡輿情監控系統技術白皮書
谷尼網絡輿情監控系統
技術白皮書
(簡版)
谷尼國際軟件(北京)有限公司
目錄 2 3 4 系統概述........................................................................................................................................1 系統結構........................................................................................................................................1 系統特點........................................................................................................................................2 功能描述........................................................................................................................................3 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5 熱點話題、敏感話題識別...................................................................................................3 輿情主題跟蹤.......................................................................................................................3 自動摘要...............................................................................................................................4 輿情趨勢分析.......................................................................................................................4 突發事件分析.......................................................................................................................4 輿情報警系統.......................................................................................................................5 輿情統計報告.......................................................................................................................5
運行環境........................................................................................................................................5
谷尼國際軟件(北京)有限公司制 系統概述
網絡輿情形成迅速,對社會影響巨大,不僅需要各級黨政干部密切關注,也需要社會各界高度重視。該方案可應用在政府的新聞監管、輿論監督等部門。
網絡輿情監控系統是一套利用搜索引擎技術、文本處理技術、知識管理方法,通過對互聯網海量信息自動獲取、提取、分類、聚類、主題監測、專題聚焦,實現用戶對網絡輿情監測和熱點事件專題追蹤等需求,形成輿情決策庫、輿情簡報等分析結果,為客戶全面掌握輿情動態,做出正確輿論引導提供分析依據。
谷尼網絡輿情監控系統是以信息采集技術為核心,應用信息采集技術、內容管理技術、知識管理技術、信息分類技術,實現網絡輿情監測和新聞熱點追蹤、新聞監管等功能需求。為客戶全面掌握群眾思想動態,做出正確輿論引導,提供分析依據。系統工作流程如下: ? 信息采集:互聯網信息實時監測、采集、內容提取及排重;
? 信息處理:對抓取的內容進行自動分類聚類、主題檢測、專題聚焦等; ? 信息服務:將采集并分析整理后的信息直接為用戶或為用戶輔助編輯提供信息服務,如自動形成輿情信息簡報、追蹤已發現的輿論焦點等。系統結構
總體來說,網絡輿情監控系統軟件的結構如下:
谷尼國際軟件(北京)有限公司制 系統特點
該項目與國內外互聯網輿情監控系統或類似功能的系統比較,具有自己顯著的技術特點,如允許用戶定制輿情監控的范圍、方式等,具體如下: ? 支持網頁編碼自動識別 ? 支持URL去重識別
? 支持正文自動識別抽取,無須標簽配置
谷尼國際軟件(北京)有限公司制
? 支持分頁采集 ? 可設置采集頻率 ? 支持分布式部署 ? 強大的信息采集功能 ? 智能化的中文信息處理
? 全面的敏感信息分布式檢索系統 ? 分類、聚類等中文智能處理技術廣泛采用 ? 實時增量備份原則
? 合理的模塊化結構及方便的分類監控 ? 靈活的調度算法
? 支持新聞、博客、論壇、貼吧的采集監控 ? 基于內容相似性去重識別 ? 支持互聯網關鍵詞搜索采集入庫 ? 支持敏感詞過濾提取 ? 支持熱點發現 ? 支持網頁快照 功能描述
4.1 熱點話題、敏感話題識別
網絡輿情監控系統可以根據新聞出處權威度、發言時間密集程度等參數,識別出給定時間段內的熱門話題。利用內容主題詞組和回貼數進行綜合語義分析,識別敏感話題。
4.2 輿情主題跟蹤
網絡輿情監控系統分析新發表文章、貼子的話題是否與已有主題相同。
是根據文檔內容間的相關程度進行分組歸并。聚類不需要類別及相關訓練樣本。聚類可以發現當前輿論焦點,或者相關文檔的查找.谷尼國際軟件(北京)有限公司制
網絡輿情監控系統通過對同一個階段搜索到的大量信息進行聚類,我們可以很方便地發現當前關于什么類別的文章數量更多,那些信息之間的關系更緊密,這樣我們可以很直觀地了解到當前輿論的焦點,以及各個輿論點之間的聯系緊密程度。
4.3 自動摘要
網絡輿情監控系統對各類主題,各類傾向能夠形成自動摘要。
信息自動摘要的中心思想是讓用戶在查看搜索結果時候,無需點擊進入每一個搜索結果去了解具體內容,而自動在搜索結果條目下顯示摘要信息。這些“摘要”幫助用戶迅速了解搜索結果的主要內容,提高了工作效率。
4.4 輿情趨勢分析
分析某個主題在不同的時間段內,人們所關注的程度。
4.5 突發事件分析
網絡輿情監控系統對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌并預測事件發展的趨勢。
谷尼國際軟件(北京)有限公司制
4.6 輿情報警系統
網絡輿情監控系統對突發事件、涉及內容安全的敏感話題及時發現并報警。
4.7 輿情統計報告
網絡輿情監控系統根據輿情分析引擎處理后生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內容,提供決策支持。運行環境
操作系統:Microsoft Windows XP/NT/2000/2003/ 數據庫為:SQL2005/MYSQL/ORACLE 服 務 器:CPU3.2G/內存2G/硬盤40G以上 帶寬要求:2M獨享以上
服務器數量:2臺(1臺采集監控、1臺 數據庫服務器)應用規模較大,可以采用多服務器集群的方式
谷尼國際軟件(北京)有限公司制
第三篇:Goonie網絡輿情監控分析系統
?
?
Goonie網絡輿情監控分析系統
1、既支持指定網站新聞、博客、論壇監測,也支持整個互聯網的輿情監控。
2、智能識別非法網絡信息,幫助您進行網絡掃黃、打非、打假。
3、自動發現負面報道、熱點新聞事件、熱點論壇貼子。
系統背景
隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論,通過這種網絡來表達觀點、傳播思想,進而產生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步。可以說,互聯網已成為思想文化信息的集散地和社會輿論的放大器。
網絡輿情是通過互聯網傳播的公眾對現實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點,主要通過BBS論壇、博客、新聞跟貼、轉貼等實現并加以強化。當今,信息傳播與意見交互空前迅捷,網絡輿論的表達訴求也日益多元。如果引導不善,負面的網絡輿情將對社會公共安全形成較大威脅。對相關政府部門來說,如何加強對網絡輿論的及時監測、有效引導,以及對網絡輿論危機的積極化解,對維護社會穩定、促進國家發展具有重要的現實意義,也是創建和諧社會的應有內涵。
系統概述
Goonie網絡輿情監控分析系統依托自主研發的搜索引擎技術和文本挖掘技術,通過網頁內容的自動采集處理、敏感詞過濾、智能聚類分類、主題檢測、專題聚焦、統計分析,實現各單位對自己相關網絡輿情監督管理的需要,最終形成輿情簡報、輿情專報、分析報告、移動快報,為決策層全面掌握輿情動態,做出正確輿論引導,提供分析依據。
系統結構
功能特點 ·自定義URL來源及采集頻率
Goonie網絡輿情監控分析系統用戶可以設定采集的欄目、URL、更新時間、掃描間隔等,系統的掃描間隔最小可以設置成1分鐘,即每隔一分鐘,系統將自動掃描目標信息源,以便及時發現目標信息源的最新變化,并以最快的速度采集到本地。
·支持多種網頁格式
Goonie網絡輿情監控分析系統可以采集常見的靜態網頁(HTML/HTM/SHTML)和動態網頁(ASP/PHP/JSP),還可以采集網頁中包含的圖片信息。
·支持多種字符集編碼
Goonie網絡輿情監控分析系統采集子系統能夠自動識別多種字符集編碼,包括中文、英文、中文簡體、中文繁體等,并可以統一轉換為GBK編碼格式。
·支持整個互聯網采集
Goonie互聯網輿情監控系統元搜索模式是以國內知名互聯網搜索引擎的結果為基礎并利用Goonie采集器直接面向互聯網定制內容進行直接采集,用戶只需要輸入搜索關鍵詞就可以了。
·支持內容抽取識別
Goonie網絡輿情監控分析系統可對網頁進行內容分析和過濾,自動去除廣告、版權、欄目等無用信息,精確獲取目標內容主體。
·基于內容相似性去重
Goonie網絡輿情監控分析系統通過內容相關識別技術自動判別分類中文章的關系,如果發現描述相同事件的文章自動去除重復部分。
功能描述
1、熱點話題、敏感話題識別
網絡輿情監控分析系統可以根據新聞出處權威度、發言時間密集程度等參數,識別出給定時間段內的熱門話題。利用內容主題詞組和回貼數進行綜合語義分析,識別敏感話題。
2、輿情主題跟蹤
網絡輿情監控分析系統分析新發表文章、貼子的話題是否與已有主題相同。
3、自動摘要
Goonie網絡輿情監控分析系統對各類主題,各類傾向能夠形成自動摘要。
4、輿情趨勢分析
Goonie網絡輿情監控系統分析某個主題在不同的時間段內,人們所關注的程度。
5、突發事件分析
Goonie網絡輿情監控分析系統對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌并預測事件發展的趨勢。
6、輿情報警系統
Goonie網絡輿情監控分析系統對突發事件、涉及內容安全的敏感話題及時發現并報警。
7、輿情統計報告
Goonie網絡輿情監控分析系統根據輿情分析引擎處理后生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內容,提供決策支持。
第四篇:互聯網輿情監控系統需求分析
互聯網輿情監控系統需求分析
一、建設目標
為了實現高效的互聯網輿情監測和控制管理,項目建設應完成如下目標:
1)對指定主流門戶網站(WEB網站)的網頁、論壇、數字報、電子雜志、博客、微博、播客、音視頻多媒體等實時信息的采集和處理。
2)對指定的主流的網頁、微博、音視頻流等實時信息的采集和處理。
3)對指定的主流網頁、圖片等實時信息采集和處理。4)全網(元搜索引擎)實時信息采集和處理。5)對指定到境外網站實時信息采集和處理。6)對收集到的海量信息進行檢索。7)對收集到的海量信息進行自動分析。8)對基本輿情數據進行各種加工處理。9)建立網評管理系統,為輿論引導服務。10)建立查處管理系統,為官方行為提供服務。
11)為方便資源共享,系統網絡可以彈性擴展、應用平臺可以二次開發。
二、系統實現功能
互聯網輿情監控系統應實現以下幾個功能: ? 動態的全面的收集社會民生信息內容
? 過濾、消重網民曝光的違法違規信息、敏感信息 ? 獲取互聯網信息熱點焦點和趨勢分析 ? 分析網絡輿情的爆發點和峰值 ? 發現民意話題傳播關系和演化規律
? 實時向上級領導通報最新情報信息、輔助領導決策 ? 更充分了解網絡社情民意 ? 網絡新聞自動獲取
通過網絡技術,自動獲取網絡新聞,并且提取新聞的作者、時間、標題、正文等數據。? 網絡論壇自動獲取
通過論壇獲取模塊,自動抓取論壇的發貼。并且提取帖子的發貼人名稱,發貼時間,主貼,回貼人名稱,回貼時間,回貼內容,論壇貼子的人氣和熱度。? 智能語言理解和分析處理
互聯網信息資訊的分析工作分為對單一信息文檔的分析和對文檔集合的分析處理。對于單文檔的加工,本系統中應用知識管理技術,實現信息的自動消重過濾、自動分類、自動摘要提取與自動關鍵詞提取。? 互聯網信息搜索
系統支持全文信息檢索,檢索結果按照相關度排序。系統支持模糊檢索,例如:同音詞檢索、同意詞檢索。系統支持“以文找文”的方式,通過輸入單篇情報信息,檢索內容相似的互聯網新聞或論壇帖子。
三、主要功能簡介
1、輿情采集和處理
1)根據指定的互聯網信息源或檢索條件,用定向采集和全網覆蓋監控兩種方式,連續不間斷和自動的對WEB資源進行采集。并進行預處理(分詞、標注、語法分析、語義分析等)和優化處理(自動消重等),建立供進一步分析使用的基本索引庫。
2)采集對象一般為中央重點新聞網站、有影響力的商業網站、地方重點新聞網站、地方有影響力的社會網站、重點境外網站等。
3)信息源內容包括:WEB網站網頁、論壇、貼吧、數字報、博客、播客、微博等。
4)全網覆蓋監控采用元搜索引擎方式。通過集成不同的通用搜索引擎(百度、谷歌、雅虎等),全面和高效的獲取信息。
2、輿情檢索
1)對各種來源、多種格式、結構化和非結構化的社會公開信息源進行檢索。
2)提供全文檢索、關鍵詞(熱點詞)檢索、組合詞(布爾邏輯組合方式)檢索、短語檢索、拼音檢索、主題檢索、相似檢索、分類檢索(針對新聞、論壇、博客、播博、微博、視頻、各地市、國內、國外)、高級檢索(針對標題、作者、時間、正文)等。
3)提供復雜檢索條件檢索(針對目標網站、時間區間、檢索類型、匹配度、排序方式)。
4)提供智能化檢索(按字索引、詞索引、字詞混合索引)。5)提供二次檢索(在一次檢索的基礎上)。6)提供整段內容做為檢索條件的檢索。
7)根據信息源周邊內容的文本信息,對圖片和音視頻等多媒體信息源進行檢索。
8)提供檢索結果的相關推薦。9)提供各種檢索結果統計。
10)檢索結果的查全率和查準率達到較高水準。
3、輿情分析
1)自動關鍵字提取。
2)對某一完整的文本信息源進行自動內容(靜態摘要)摘要提取。
3)根據預先給定的檢索條件進行自動多文檔(動態摘要)摘要提取。
4)自動主題檢索和跟蹤。5)自動關聯分析和趨勢分析。6)根據預先給定的規則進行自動分類。
7)在沒有給定規則的前提下,自動聚類(自動識別)出新的模式歸檔到數據庫,以供用戶分析使用。
4、輿情加工和處理
1)所有采集及經過處理入庫的信息保留半年。2)通過設置關鍵詞、有害詞、敏感詞,或通過設置某一輿情的潛在專題信息做出輿情預警。
3)將人工檢索以及自動生成熱點的相關聯多種特征數據(時間分布、傳播路徑、話題演化、地域分布等)整合處理,并以多種形式輸出,包括Word、Excel、網頁、XML、多種統計圖表(餅圖、柱狀圖、趨勢圖、報表、曲線圖)等。
4)對所有來源的基本數據(采集數據量、輿情數據、發帖數據等)進行統計分析,并以多種形式輸出,并以E-mail、RTX、手機短信等方式報警提示。同時在報警提示中輔以警示顏色(超過設定監控閥值的采集信息)等特征信息加強直觀警示效果。
5)按照預定格式,自動生成輿情報告。簡報分為日報、周報、月報、專報。
6)對輿情數據信息進行痕跡處理(標注、推介、上報、批示等),使輿情數據信息進入辦公操作流程。
7)建立領導批示、各地輿情、境外輿情、網站備案信息、網站年檢信息、網站違規發布檢查、網站違規發布處理等專門管理。
第五篇:繁星時代互聯網輿情監控系統介紹
互聯網輿情監控系統
1主要業務功能:
實現全球熱門、專業、權威網站(中英文)的信息采集;
實現重點關注的門戶網站、論壇、微博、博客的信息采集;
實現熱點話題的聚類、敏感話題的追蹤、自定義的信息匯聚和數據挖掘技術,獲取基于各個行業和領域的輿情信息;
提供輿情信息預警機制,實現主動防御;
實現海量數據信息的存儲和索引機制;
2產品優勢和特色
信息采集覆蓋全球
支持深層數據挖掘
提供信息內容匯聚
提供輿情預警報警
支持海量數據存儲
用戶可以根據需求在平臺上搜索,抽取有效信息,并能快速從信息中挖掘人、事、組織背后的深層次關系,產 出獨有的情報信息,以及對歷史數據進行分析和溯源。