Supertext智能文檔審閱系統報價--實在智能

點擊圖片查看原圖

品牌：	智能文檔審閱系統
單價：	面議
起訂：
供貨總量：
發貨期限：	自買家付款之日起天內發貨
所在地：	浙江
有效期至：	長期有效
最后更新：	2021-06-16 14:06
瀏覽次數：	281

公司基本資料信息

杭州實在智能科技有限公司
已繳納 0.00 元保證金
聯系人阿席(先生)
會員 [當前離線] [加為商友] [發送信件]
郵件
電話
手機
地區浙江
地址浙江省杭州市余杭街道人工智能小鎮6號樓6樓

產品詳細說明

Supertext智能文檔審閱13868850106
智能文檔審閱是智能能力在文檔分析審閱場景的解決方案https://www.ai-indeed.com/，利用了強大的預訓練模型，實現內容密集、篇幅長、非結構化文檔的分析和審閱。廣泛適用各種合同、文件、文章、等審核場景。其智能的關鍵詞/要素/實體等抽取、多版本文檔比對、智能糾錯，以及個性化風險識別，結合RPA自動化操作，極大提高企業文檔處理的效率和準確率。比如，法務合同審核、采購合同比對等。

準確識別錯誤并定位，智能建議展示

1、準確識別輸入文本中出現的拼寫錯別字；

2、精準定位錯誤位置;

3、針對性給出正確的建議文本內容；

4、多場景糾錯支持。

多文檔間自動智能比對異，智能生成報告

1、任務詳情實時查看；

2、滾動模式選擇；

3、三種比對結果差異化展示；

4、差異點文本展示比對；

5、差異點精準定位。

海量內置風險模型，支持自定義風險審核項

1、合理的評分機制；

2、高中低三檔風險自動識別；

3、風險點詳情說明；

4、審核結果反饋；

5、支持自定義模版。

精準信息或實體提取，自定義抽取模版

1、關鍵內容進行結構化提取；

2、關鍵信息精準定位；

3、支持個性化自定義模版。

智能文檔審閱產品特性
支持多格式、適用范圍廣
支持文檔、PDF、圖片多種格式文件的解析和比對，適用范圍廣

審閱能力強、智能技術深
基于深厚的自然語言處理技術基礎，在文檔審閱全過程都準確

可視化呈現、簡明易懂
對比連線、多種顏色區分、精準指向和定位等，讓審閱結果一目了然

豐富知識和模版、開箱即用
內置豐富的糾錯知識庫，以及審核、抽取模版，開箱即用

靈活自定義、支持多業務
基于強大的算法和預訓練模型，可靈活自定義的文檔審閱模版，適用各種業務場景

智能自動化、無縫銜接
文檔審閱能力集成到章魚數字員工Z-Factory流程設計器，像組件使用一樣簡單

相關新聞：實在智能RPA學院|LIME應用及其時間復雜度初探

問題背景：

機器學習或深度學習模型在賦能2B的實際業務場景時，模型的可解釋性一直是影響模型快速落地的瓶頸。為非AI相關背景的客戶或合作伙伴解釋模型（尤其是黑盒模型）的訓練和預測過程，以及某個預測結果背后蘊含的推理，往往是一件很有必要但很棘手的事情。對于我們目前從事的智能司法場景尤其如此：案件的判決往往在一定的司法框架內進行推理，每一個步驟都必須有法可依；那么智能司法產品的結果同樣需要基于對應的法律法規給出令人信服的解釋，否則模型盡管在驗證集上效果很好，也并不能得到用戶的信任。

為此，我們希望我們構建的模型創建一個相對通用的解釋器（explainer）模塊。該模塊能夠給出模型預測行為的一種相對直觀的表征形式，以便我們清晰地知道這個“AI律師”是否足夠有經驗；同時也希望該解釋器具有一定的模型無關性（Model-Agnostic），這樣我們可以擴展更多得模型。LIME（Local Interpretable Model-Agnostic Explanations）的出現為我們提供了一種解決的思路。目前司法場景下的數據大致可以分為文本形式（Text）和結構化形式（Tabular），本次我們的探索主要集中在對結構化特征的應用上。

LIME簡介：

LIME在2016年的KDD上提出，其論文《“Why Should I Trust You?” Explaining the Predictions of Any Classifier》提出了一種用預測值附近的局部線性模型來解釋整體復雜模型的思想，其中包括的主要技術有：

◎ 預測值附近的樣本點選擇

◎ 評估模型整體需要的預測值集合篩選

◎ 解釋器好壞評估的實驗

后兩點在實際場景中應用的不多，因此我們只關注如何選擇預測值附近的樣本點及構建對應的線性模型，以及如何用該線性模型來解釋模型。

樣本點選擇：對結構化特征的分類模型，LIME樣本點選擇主要在lime_tabular.py中LimetabularExplainer類的__data_inverse函數實現。正如注釋所提到，對于非categorical類型的特征，LIME在預測點附近用一個正態分布Norm(0,1)來產生指定個數（num_samples）的樣本：

1. data = self.random_state.normal(

2. 0, 1, num_samples * data_row.shape[0]).reshape(

3. num_samples, data_row.shape[0])

并根據指定的尺度做變換：

1. if self.sample_around_instance:

2. data = data * self.scaler.scale_ + data_row

3. else:

4. data = data * self.scaler.scale_ + self.scaler.mean_

而對于categorical類型的特征，則根據訓練集的分布進行頻率采樣，并且當某一樣本的categorical特征和預測值對應特征相等時置1。采樣過程將生成一個num_sample * K的矩陣，其中K表示待解釋的特征維度，后續的線性模型則在此基礎上建模：

1. nverse_column = self.random_state.choice(values, size=num_samples, replace=True, p=freqs)

2. binary_column = np.array([1 if x == first_row[column]

3. else 0 for x in inverse_column])

線性模型構建：局部線性擬合的實現在lime_base.py的explain_instance_with_data中，回歸方法的選擇上應用了有偏的嶺回歸模型，這種回歸方法通過對回歸系數增加懲罰項來控制模型的復雜度，和ML/DL模型中在損失函數中加正則項是同樣的道理

通過懲罰項的引入，就使得模型的特征存在一定的共線性情況時，也能得到相比于一般的線性回歸更加魯棒的回歸結果，同時用線性回歸簇也充分考慮了回歸函數的復雜度問題。另外，在用sklearn的嶺回歸模型擬合樣本點過程中，對樣本點也進行了加權，具體的權重是和樣本點到預測點的距離有關，這種做法的出發點在于給和預測點更相似的樣本賦予更大的權重，進一步規避隨機采樣過程中帶來的解釋偏差問題

1、def kernel(d):

2、 np.sqrt(np.exp(-(d ** 2) / kernel_width ** 2))

通過嶺回歸擬合得到的各特征及其權重即可作為模型在該預測點的解釋。不過，在模型的特征比較多的時候，LIME也提供了對特征重要性的評估和篩選過程，包括三種模式的篩選：forward_selection、highest_weights、lasso_path，具體內容感興趣的同學可以對其進行深入探索。

LIME的實際應用

就我們的智能司法場景來說，每個預測點代表了一次案例的結果推理，其中結構化的特征是從對應的訴求表述、法規法條和證據文本中加工得到，因此LIME在利用局部線性擬合獲得預測點附近的特征權重后，就可以反向映射到原始的文本數據中，進而可視化的展示出模型在該預測點的原理表征：考慮了哪些特征，不同特征在不同分類上的權重分配是怎么樣。

LIME在結構化特征上的應用實際主要就是調用以下兩個方法的過程：

3.1 explainer = lime.lime_tabular.LimetabularExplaine()

傳入的參數包括：

X：訓練樣本，從原始的文本數據通過分詞、關鍵詞提取、向量化等方式獲得，例如可以根據在訴求文本中是否出現了關鍵證據模式（1.出現，0.未出現）來將文本特征轉化為結構化特征，這里我們通過一個.npy文件導入訓練樣本；

feature_names: 特征名稱list，是各個特征具象化的表征；

class_names：分類名稱list，如果是兩類，可設置為[“0”,“1”]，代表支持或不支持訴求；

sample_around_instance：True，表示在預測點附近采樣，選擇False則會在訓練樣本的質心點附近生成樣本集進行擬合。

LimetabularExplaine構造了一個解釋器的類，并完成一些初始化的工作，真正的解釋器實現，包括局部線性模型的擬合都會調用到其中的explain_instance方法。

3.2 exp = explainer.explain_instance()

傳入的參數包括：

np.array(feature_list)：是實際預測數據的結構化特征表示，例如我們的預測數據假設為一段訴求文本，則根據生成訓練樣本X的方法轉化為一個K維的向量，K表示特征維度；

clf.predict_proba：clf是通過sklearn的joblib導入的已訓練好的模型文件，對于分類問題來說，需要以概率的形式給出屬于各個類的可能性；

num_features：希望在解釋器中展示的特征的個數；

top_labels：對于多分類問題來說，選取預測概率的若干個類；

num_samples：采樣點的個數，預測值附近采樣點的個數。

根據司法場景的實際情況處理好相應的參數，并將參數輸入到LIME的解釋器模塊，得到了一個Explainer對象，該對象可以通過as_list或as_map方法轉換為<特征，權重>對，并經過一定的特征映射和可視化，作為模型的局部解釋進行輸出。

LIME的性能問題

實際應用以及對LIME的原理探索的過程中，我們發現應用LIME對某個預測點進行解釋的時間復雜度，和以下這些參數有比較強的關系：feature_selection（特征選擇方式）、discretize_continuous（是否針對連續數據做離散化）、num_samples（預測值附近的采樣個數）等。而對于一個交付線上應用的智能司法產品來說，解釋模塊如果時間復雜度太高，對于用戶而言體驗會很差，同樣也是不可用的，反而會給用戶對AI模型的信任度有副作用。一個實際使用的解釋器需要充分考慮解釋準確性和時間復雜度的trade off，為此我們基于上述參數對LIME的時間復雜度進行了簡單對比：

從上述對比結果來看：特征的選擇方式對LIME的時間復雜度的影響，如果采用forward_selection的方式選擇特征，固然能獲得更好的擬合效果（R2-Score），但是整體的時間消耗是線上應用不能接受的；是否對非categorical特征進行離散化也是影響時間復雜度的重要因素，基于訓練樣本的離散化過程同樣需要消耗比較多的時間；采樣點的個數和時間基本是正向相關的關系，同樣地，更細致的采樣雖然使得局部的擬合效果更好，但也是以更多的時間消耗為代價。

針對LIME的性能和效果的折衷問題，理論上可以通過以下兩種方案解決：

1、基于已知的訓練數據集，把LIME的特征選擇過程、特征離散化過程等放到線下作為預處理的一部分，在線上直接使用預處理的結果；以特征的離散化為例，不論是按照四分位數還是按照十分位數進行離散化，都可以把X預處理后，再以.npy的方式加載到模型中；

2、更一般性的，在線下訓練一個訓練集中樣本點到各特征權重向量的映射，再根據實際預測點和訓練樣本點的距離度量求得預測點處的特征權重向量。

其他的Model Explainer：

其實，對于ML/DL模型解釋性的探索并非在LIME提出后才開始：

簡單的線性模型，包括更廣義的LR其解釋性都是非常直觀的，每個特征的權重對于結果的影響蘊含在模型本身之中，LIME其實也是通過局部的線性擬合來做局部點的解釋；

更復雜的如隨機森林模型的解釋，在2014年7月由Gilles Louppe給出了一種衡量特征重要性的工具，目前該工具已集成在scikit-learn的隨機森林Estimator中。但是和LIME相比，這個工具更關注的是整個模型特征重要性的評估，并未給出某個具體預測點的預測過程解釋，同時也只是支持了樹型的分類器。

于是在2015年8月，一個可對具體預測點進行解釋的treeinterpreter出現，該工具能夠將具體預測點的預測概率，轉換為各個特征貢獻程度的求和，因此在單個點上進行了模型的解釋；但是同樣的，目前只支持決策樹及其衍生相關算法。

2015年10月，Airbnb的研究團隊同樣展示了在隨機森林上對決策閾值分布的研究。

直到2016年LIME提出，其意義不僅在于給出了一種相對來說模型無關的Explainer解決方案，同時還對模型解釋的好壞給出了一系列的衡量指標并通過實驗進行了驗證。

當然，在LIME之后的2016年6月，論文《The Mythos of Model Interpretability》相對系統性地闡述了Machine Learning Model Transparency這件事。

在模型解釋性領域，目前state-of-the-art的結果來源于一個稱為SHAP的項目。SHAP（SHapley Additive exPlanations）也能對各種類型的機器學習模型給出一個相對統一的解釋結果，SHAP重要的是整合了包括LIME在內的一系列Model-Explain方法，進而給出了基于預測的特征貢獻值的衡量和可視化。

從Model Transparency的發展來看，對于單個預測點的解釋無論從理論還是可視化結構上看都有了比較好的探索和結果，包括LIME和SHAP等工具；然而對于一個模型整體“解釋度”等指標的定義，雖然LIME等也做過一定程度的定義和研究，但目前業界仍然沒有一個統一的標準，不同的應用場景對于模型的解釋性要求也不一樣，因此確實很難統一。我們在智能司法場景上目前雖然基于LIME做了一些嘗試，后續也會持續follow包括SHAP在內的Model Explainer的進展，但是更多的也是基于當前業務場景的應用，對于科學性地研究模型可解釋性，還是期待學術界有更多結果輸出。

圖1. 結構化特征上的SHAP解釋結果，來源:https://github.com/slundberg/shap

圖2. 圖像分類模型的SHAP解釋結果，來源：https://github.com/slundberg/shap

Z-Commander 中樞控制臺大量供應 http://www.ykjseo.com/haqing/show-61118.html
供應Supertext智能文檔審閱系統公司 http://cn.jzjxqm.com/gying/202106/07/10601003.html
軟件機器人RPA供貨 http://www.ykjseo.com/haqing/show-61108.html
rpa機器人-機器人 http://www.u520.net/tradeinfo/info.asp?info_id=812423
RPA機器人-機器人流程自動化-流程自動-rpa軟件大量供應 http://cn.jzjxqm.com/gying/202106/07/10601007.html

代發趕集網信息http://www.b2bxc.com/

共0條 [查看全部] 相關評論

更多»本企業其它產品