青青草免费线看线看|啊在车上停不下来了|国产少女免费观看电视剧|仑乱88MAV|精品老司机在线观看视频|国产一区二区三区高清免费视频|在线观看免费777av

理智與情感主角


理智與情感主角


大數據是一個事關我國經濟社會發展全局的戰略性產業,大數據技術為社會經濟活動提供決策依據,提高各個領域的運行效率,提升整個社會經濟的集約化程度,對于我國經濟發展轉型具有重要的推動作用!
大數據是一個事關我國經濟社會發展全局的戰略性產業,大數據技術為社會經濟活動提供決策依據,提高各個領域的運行效率,提升整個社會經濟的集約化程度,對于我國經濟發展轉型具有重要的推動作用!2016年,由網加時代網發起并承辦,北京大學信息化與信息管理研究中心、中國新一代IT產業推進聯盟協辦的“影響中國大數據產業進程100人”大型人物專訪活動全面啟動 , 被采訪對象分別來自政府、產、學、研、企各個領域,他們將從不同角度,不同層面向大家闡述當前大數據產業熱點、難點、疑點問題,為中國大數據產業健康、持續發展探索經驗、保駕護航,敬請關注!
張華平,中國首席數據聯盟專家組成員 , 北京理工大學副教授,博士,研究生導師,知名漢語分詞系統ICTCLAS創始人,大數據搜索與挖掘實驗室主任,《大數據搜索與挖掘》作者 。
本期由我們的特邀嘉賓魯四海向張華平博士發問 。魯四海是中國新一代IT產業推進聯盟技術分委會秘書長,北大信息化與信息管理研究中心技術顧問,中國首席數據聯盟發起人 。
魯四海:云計算、智慧城市、移動互聯網、大數據與物聯網已經成為大數據時代的技術特征,實現了人理智與情感主角、機器與實物的互聯互通 。對語言的理解一直是大數據深入應用的一道門檻 。互聯網上的內容很多,可以說是信息泛濫 , 那么要從網絡挖掘內容價值,是不是也有一些條件和要求需要滿足?
張華平: 是的 。網絡搜索與挖掘其實就是四步曲: 目標分解,信息收集,分析去噪 , 情報提煉 。據此可以看出,要進行網絡搜索與挖掘,也必須具備四個要件 。
一個實用案例是中國證監會的網絡輿情系統,這是我做的 。它會廣泛搜集網上各種各樣的信息,采集BBS論壇新聞,包括采集微博信息 。采完以后進行各種分析提煉,可以發現有什么人在發布虛假信息 。
再比如用于地圖開發 。我們的GPS數據 , 許多都是由地圖廠商那里來的 。地圖商們總是面臨一個問題,某地新蓋了一棟樓了 , 或者搬地方了,或者又多了一家賓館,等等 。地圖廠商要獲得這些信息,其實是相當耗錢費力的,他們要每天派300輛車在全國各地跑,一直跑一直拍,沿途發現什么地方變化了,或者路斷了,就要分析再入庫 。
用網絡搜索和數據挖掘的手段來解決此事就方便許多了 ?,F在是網絡時代,例如某地要蓋個樓、開家賓館什么的,一般網上都會有消息發出來,那么就可以用技術手段,從新聞或網友發言中分析挖掘出來 。地圖商或交管局拿了這個數據,稍微核實一下就能夠用來更新自己的數據庫 。
此外,國內網上的“水軍”現在是很厲害的,要炒作什么話題,要把誰捧上去或貶下來,手法多種多樣,真是翻手為云覆手為雨 。我們就可以通過數據挖掘,辨別出“水軍”力量的運作線索 。
張華平:這看似簡單,是一個很復雜的過程,要應用者對大數據文本的處理需求,需要完整的技術鏈條,包括:網絡抓取、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等 。
但大數據文本處理這部分相對獨立,又需要無縫地融合到的各類復雜應用系統之中,所以在選擇這部分組件的時候需要否兼容主流的平臺 , Java,C/C , C#, Python,Php, R等各類主流開發語言是否能很好調用其所有功能 。
魯四海:我想張博士開發的NLPIR就能夠全方位多角度滿足應用者對大數據文本的處理需求 。能不能請張博士對NLPIR采用的一些先進算法給我們分享一下 。
張華平:NLPIR實體抽取系統能夠智能識別文本中出現的人名、地名、機構名、媒體、作者及文章的主題關鍵詞 , 這是對語言規律的深入理解和科學預測,其所提煉出的詞語不需要在詞典庫中事先存在 。NLPIR實體抽取系統采用基于角色標注算法自動識別命名實體(算法細節請參照:《大數據搜索與挖掘》) , 開發者可在此基礎上搭建多樣化的大數據挖掘應用 。
NLPIR采用深度神經網絡對分類體系進行了綜合訓練 。演示平臺目前訓練的類別只是新聞的、經濟理智與情感主角、軍事等 。我們內置的算法支持類別自定義訓練,該算法對常規文本的分類準確率較高 , 綜合開放測試的F值接近86% 。NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面 。此外還可以實現文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息 , 可應用于品牌報道監測、垃圾信息屏蔽、敏感信息審查等領域 。
NLPIR情感分析提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖) 。情感分析主要采用了兩種技術:
1.情感詞的自動識別與權重自動計算,利用共現關系,采用Bootstrapping的策略,反復迭代 , 生成新的情感詞及權重 。
【理智與情感主角】中國首席數據官聯盟/中國CDO精英俱樂部是國內首個以CDO為核心的技術型非盈利性聯盟組織,遵循自愿、平等、合作的原則 。其發起人為魯四海、劉冬冬、葛涵濤 。我們希望成為中國大數據產業創新與發展推動者 , 為實現中國大數據產業全球領先而努力 。我們將一如繼往的打造跨行業、跨領域的商業精英交流平臺,提升CDO在企業中的地位,提 升企業的數據化水平,將數據變為未來企業發展的核心驅動力并最終推動中國大數據產業整體發展水平 。

    猜你喜歡