AI Center - ファイルをアップロードする

ai-center

latest

false

AI Center ガイド

基本情報
通知
- 自分への通知
プロジェクト
- プロジェクトについて
- プロジェクトを管理する
データセット
- データセットについて
- データセットを管理する
データのラベル付け
ML パッケージ
- ML パッケージについて
- ML パッケージのソース
  - ファイルをアップロード
  - すぐに使えるパッケージを使用する
  - ML パッケージをインポートおよびエクスポートする
- ML パッケージを管理する
すぐに使えるパッケージ
パイプライン
ML スキル
- ML スキルについて
- ML スキルを管理する
ML ログ
- ML ログについて
AI Center の Document UnderstandingTM
- Document Manager
- OCR サービス
AI Center API
- 概要
- API リスト
ライセンス
AI ソリューションテンプレート
- AI ソリューションテンプレートについて
  - メール AI
使い方
- ML パッケージ
  - 継続学習するカスタム NER を使用する
- ML スキル
基本的なトラブルシューティングガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

ファイルをアップロード

注:

独自のモデルを持ち込む機能は非推奨となりました。詳しくは、『概要ガイド』の「非推奨化のタイムライン」のページをご覧ください。

ML パッケージを構築する

データサイエンティストは、Python か AutoML プラットフォームを使用して、事前トレーニング済みのモデルを構築します。これらのモデルは、RPA 開発者によってワークフロー内で使用されます。

ML パッケージを構造化する

パッケージは一連のわずかな要件に従う必要があります。これらの要件は、モデルのサービングに必要な要素とモデルのトレーニングに必要な要素に分割されます。

サービングコンポーネント

パッケージでは、少なくとも以下のものを提供する必要があります。

ルートに main.py ファイルがあるフォルダー
このファイルでは、少なくとも以下の 2 つの関数を実装する Main クラス
- __init__(self): 引数は取らず、モデルとモデルのローカルデータのいずれか、あるいはその両方をロードします (例:単語埋め込み)。
- predict(self, input): モデルサービング時に呼び出され、文字列を返す関数
モデルの実行に必要な依存関係を含む requirements.txt という名前のファイル

パッケージのサービングコンポーネントを推論時のモデルとして考えます。サービング時には、提供された requirements.txt ファイルを使用してコンテナーイメージが作成されます。また、モデルへのエンドポイントとして predict 関数が使用されます。

トレーニングと評価コンポーネント

パッケージは推論に使用できるほか、必要に応じてマシンラーニングモデルのトレーニングにも使用できます。これは、次の手順で行います。

main.py ファイルと同じルートフォルダーにファイル train.py を用意します。
このファイルでは、少なくとも以下の 4 つの関数を実装する Main という名前のクラスを提供します。_init_を除く以下の関数はすべて任意ですが、対応するパッケージで実行できるパイプラインの種類が制限されます。
- __init__(self): 引数は取らず、モデルとモデルのデータのいずれか、あるいはその両方をロードします (例:単語埋め込み)。
- train(self, training_directory): 任意に構築されたデータを含むディレクトリを入力として取ります。モデルのトレーニングに必要なコードをすべて実行します。この関数は、トレーニングパイプラインの実行時に常に呼び出されます。
- c. evaluate(self, evaluation_directory): 任意に構築されたデータを含むディレクトリを入力として取ります。モードの評価に必要なコードをすべて実行し、その評価に対する単一のスコアを返します。この関数は、評価パイプラインの実行時に常に呼び出されます。
- save(self): 引数を取りません。この関数は、モデルを保持するために train 関数のそれぞれの呼び出しの後に呼び出されます。
- process_data(self, input_directory): 任意に構築されたデータを含む input_directory 入力を取ります。この関数はフルパイプラインの実行時にのみ呼び出されます。フルパイプラインの実行時に、この関数は任意のデータ変換を行い、データを分割できます。具体的には、環境変数 training_data_directory で指定したパスに保存されたデータが train 関数の入力となり、環境変数 evaluation_data_directory で指定したパスに保存されたデータが上記の evaluation 関数の入力となります。

データ型を処理する

RPA ワークフローで使いやすい UiPath® AI Center にするために、 String、 File、 Files の 3 種類の入力のいずれかを備えることをパッケージに指定できます (パッケージのアップロード時に設定します)。

String データ

これは一連の文字列です。シリアル化できるデータは、すべてパッケージで使用できます。RPA ワークフローで使用する場合、カスタムアクティビティの使用などによってデータを Robot でシリアル化し、文字列として送信できます。パッケージアップローダーでは、パッケージの入力の種類として JSON を選択している必要があります。

データの逆シリアル化は、 predict 関数で行われます。Python でデータを逆シリアル化するには、次の例をご覧ください。

Robot sends raw string to ML Skill Activity
# E.g. skill_input='a customer complaint'`
def predict(self, skill_input):
  example = skill_input  # No extra processing
    
# Robot sends json formatted string to ML Skill Activity
# E.g skill_input='{'email': a customer complaint', 'date': 'mm:dd:yy'}'
def predict(self, skill_input):
  import json
  example = json.loads(skill_input)
  
# Robot sends json formatted string with number array to ML Skill Activity
# E.g. skill_input='[10, 15, 20]'
def predict(self, skill_input):
  import json
  import numpy as np
  example = np.array(json.loads(skill_input))
  
# Robot sends json formmatted pandas dataframe
# E.g. skill_input='{"row 1":{"col 1":"a","col 2":"b"},
#                    "row 2":{"col 1":"c","col 2":"d"}}'
def predict(self, skill_input):
  import pandas as pd
  example = pd.read_json(skill_input)
Robot sends raw string to ML Skill Activity
# E.g. skill_input='a customer complaint'`
def predict(self, skill_input):
  example = skill_input  # No extra processing
    
# Robot sends json formatted string to ML Skill Activity
# E.g skill_input='{'email': a customer complaint', 'date': 'mm:dd:yy'}'
def predict(self, skill_input):
  import json
  example = json.loads(skill_input)
  
# Robot sends json formatted string with number array to ML Skill Activity
# E.g. skill_input='[10, 15, 20]'
def predict(self, skill_input):
  import json
  import numpy as np
  example = np.array(json.loads(skill_input))
  
# Robot sends json formmatted pandas dataframe
# E.g. skill_input='{"row 1":{"col 1":"a","col 2":"b"},
#                    "row 2":{"col 1":"c","col 2":"d"}}'
def predict(self, skill_input):
  import pandas as pd
  example = pd.read_json(skill_input)

File データ

これにより、このモデルを呼び出す ML スキルアクティビティにファイルパスを要求することを通知します。具体的には、このアクティビティがファイルシステムからファイルを読み取り、シリアル化したバイト文字列として predict 関数に送信します。したがって、RPA 開発者はワークフロー自体でファイルを読み取ってシリアル化することなく、ファイルにパスを渡すことができます。

ワークフロー内では、アクティビティへの入力はファイルへのパスのみです。このアクティビティは、ファイルを読み取り、シリアル化して、ファイルのバイトを predict 関数に送信します。データの逆シリアル化は predict 関数でも行われ、一般的なケースでは、次のようにバイトを直接ファイルのようなオブジェクトに読み込むだけです。

ML Package has been uploaded with *file* as input type. The ML Skill Activity
# expects a file path. Any file type can be passed as input and it will be serialized.
def predict(self, skill_input):
  import io
  file_like = io.BytesIO(skill_input)
ML Package has been uploaded with *file* as input type. The ML Skill Activity
# expects a file path. Any file type can be passed as input and it will be serialized.
def predict(self, skill_input):
  import io
  file_like = io.BytesIO(skill_input)

上記のようにシリアル化されたバイトを読み取ることは、読み取りバイナリフラグをオンにしてファイルを開くことと同じです。モデルをローカルでテストするには、ファイルをバイナリファイルとして読み取ります。以下に、イメージファイルを読み取ってローカルでテストする例を示します。

main.py where model input is an image
class Main(object):
   ...
    
   def predict(self, skill_input): 
      import io
      from PIL import Image
      image = Image.open(io.BytesIO(skill_input))
   ...
  
if__name__ == '_main_':
   # Test the ML Package locally
   with open('./image-to-test-locally.png', 'rb') as input_file:
      file_bytes = input_file.read()
     m = Main()
     print(m.predict(file bytes))
main.py where model input is an image
class Main(object):
   ...
    
   def predict(self, skill_input): 
      import io
      from PIL import Image
      image = Image.open(io.BytesIO(skill_input))
   ...
  
if__name__ == '_main_':
   # Test the ML Package locally
   with open('./image-to-test-locally.png', 'rb') as input_file:
      file_bytes = input_file.read()
     m = Main()
     print(m.predict(file bytes))

以下に、csv ファイルを読み取って、predict 関数の pandas データフレームを使用する例を示します。

main.py where model input is a csv file
class Main(object):
   ...
   def predict(self, skill_input): 
      import pandas as pd
      data frame = pd.read_csv(io.BytesIO(skill_input))
      ...
      
if name == '_main_':
   # Test the ML Package locally
   with open('./csv—to—test—locally.csv', 'rb') as input_file:
      bytes = input_file.read()
   m = Main()
   print(m.predict(bytes))
main.py where model input is a csv file
class Main(object):
   ...
   def predict(self, skill_input): 
      import pandas as pd
      data frame = pd.read_csv(io.BytesIO(skill_input))
      ...
      
if name == '_main_':
   # Test the ML Package locally
   with open('./csv—to—test—locally.csv', 'rb') as input_file:
      bytes = input_file.read()
   m = Main()
   print(m.predict(bytes))

Files データ

これにより、このモデルを呼び出す ML スキルアクティビティがファイルパスのリストを要求することを AI Center に通知します。前のケースと同様に、このアクティビティによって各ファイルが読み込まれ、シリアル化されたうえで、バイト文字列のリストが predict 関数に送信されます。

ファイルのリストをスキルに送信できます。ワークフローでは、アクティビティへの入力は、ファイルへのパスをコンマで区切った文字列です。

パッケージをアップロードする際、データサイエンティストは入力の種類として [ ファイルのリスト ] を選択します。その後、データサイエンティストは、送信された各ファイルを逆シリアル化する必要があります。predict関数への入力はバイトのリストであり、リスト内の各要素はファイルのバイト文字列です。

任意のデータを保持する

train.py では、実行されたすべてのパイプラインが、パイプライン出力と呼ばれる任意のデータを保持できます。環境変数のアーティファクトからディレクトリパスに書き込まれるデータはすべて保持されます。パイプラインの詳細ページに移動すれば、このデータをいつでも確認できます。通常、トレーニング/評価ジョブのあらゆる種類のグラフと統計情報は artifacts ディレクトリに保存され、パイプラインの実行後に UI からアクセスできます。

train.py where some historical plot are saved in ./artifacts directory during Full Pipeline execution
# Full pipeline (using process_data) will automatically split data.csv in 2/3 train.csv (which will be in the directory passed to the train function) and 1/3 test.csv
import pandas as pd
from sklearn.model_selection import train_test_split
class Main(object):
   ...
   def process_data(self, data_directory):
     d = pd.read_csv(os.path.join(data_directory, 'data.csv')) 
     d = self.clean_data(d)
     d_train, d_test = train_test_split(d, test_size=0.33, random_state=42)
     d_train.to_csv(os.path.join(data_directory , 'training', 'train.csv'), index=False)
     d_test.to_csv (os.path.join(data__directory , 'test' , 'test.csv'), index=False)
     self.save_artifacts(d_train, 'train_hist.png', os.environ["artifacts"])
     self.save_artifacts(d_test, 'test_hist.png', os.environ["artifacts"])
  ...
  
   def save_artifacts(self, data, file_name, artifact_directory):
      plot = data.hist() 
      fig = plot[0][0].get_figure()
      fig.savefig(os.path.join(artifact_directory, file_name))
...
train.py where some historical plot are saved in ./artifacts directory during Full Pipeline execution
# Full pipeline (using process_data) will automatically split data.csv in 2/3 train.csv (which will be in the directory passed to the train function) and 1/3 test.csv
import pandas as pd
from sklearn.model_selection import train_test_split
class Main(object):
   ...
   def process_data(self, data_directory):
     d = pd.read_csv(os.path.join(data_directory, 'data.csv')) 
     d = self.clean_data(d)
     d_train, d_test = train_test_split(d, test_size=0.33, random_state=42)
     d_train.to_csv(os.path.join(data_directory , 'training', 'train.csv'), index=False)
     d_test.to_csv (os.path.join(data__directory , 'test' , 'test.csv'), index=False)
     self.save_artifacts(d_train, 'train_hist.png', os.environ["artifacts"])
     self.save_artifacts(d_test, 'test_hist.png', os.environ["artifacts"])
  ...
  
   def save_artifacts(self, data, file_name, artifact_directory):
      plot = data.hist() 
      fig = plot[0][0].get_figure()
      fig.savefig(os.path.join(artifact_directory, file_name))
...

TensorFlow を使用する

モデルの開発時には、サービスの提供に使用するのと同じスレッドに TensorFlow グラフを読み込む必要があります。それには、既定のグラフを使用する必要があります。

必要な変更を加えた次の例をご覧ください。

import tensorflow as tf
class Main(object):
  def __init__(self):
    self.graph = tf.get_default_graph() # Add this line
    ...
    
  def predict(self, skill_input):
    with self.graph.as_default():
      ...
import tensorflow as tf
class Main(object):
  def __init__(self):
    self.graph = tf.get_default_graph() # Add this line
    ...
    
  def predict(self, skill_input):
    with self.graph.as_default():
      ...

GPU の使用状況に関する情報

スキルの作成時に GPU を有効化した場合、スキルは NVIDIA GPU ドライバー 418、CUDA Toolkit 10.0、CUDA Deep Neural Network Library (cuDNN) 7.6.5 ランタイムライブラリを有するイメージ上にデプロイされます。

例

トレーニングがないシンプルな Ready-to-Serve ML モデル

この例では、業務上の問題にモデルの再トレーニングは必要ありません。したがって、サービングするシリアル化したモデル IrisClassifier.sav をパッケージに置く必要があります。

初期プロジェクトツリー (main.py と requirements.txt がないもの)
```
IrisClassifier/
  - IrisClassifier.sav
IrisClassifier/
  - IrisClassifier.sav
```

ルートフォルダーに追加する main.py の例:

from sklearn.externals import joblib 
import json
class Main(object):
   def __init__(self):
      self.model = joblib.load('IrisClassifier.sav')
   def predict(self, X):
      X = json.loads(X)
      result = self.model.predict_proba(X)
      return json.dumps(result.tolist())
from sklearn.externals import joblib 
import json
class Main(object):
   def __init__(self):
      self.model = joblib.load('IrisClassifier.sav')
   def predict(self, X):
      X = json.loads(X)
      result = self.model.predict_proba(X)
      return json.dumps(result.tolist())

requirements.txt を追加します。
```
scikit-learn==0.19.0
scikit-learn==0.19.0
```

注:

pip ライブラリには考慮すべき制約がいくつかあります。以下の制約ファイル下にライブラリをインストールできることを確認してください。

itsdangerous<2.1.0
Jinja2<3.0.5
Werkzeug<2.1.0
click<8.0.0
itsdangerous<2.1.0
Jinja2<3.0.5
Werkzeug<2.1.0
click<8.0.0

これをテストするには、新しい環境で次のコマンドを使用し、すべてのライブラリが適切にインストールされることを確認します。

pip install -r requirements.txt -c constraints.txt
pip install -r requirements.txt -c constraints.txt

最終的なフォルダー構造は以下のとおりです。

IrisClassifier/
  - IrisClassifier.sav
  - main.py
  - requirements.txt
IrisClassifier/
  - IrisClassifier.sav
  - main.py
  - requirements.txt

トレーニングが有効でシンプルな Ready-to-Serve モデル

この例では、業務上の問題はモデルの再トレーニングが必要です。上記のパッケージに構築することで、以下が得られます。

初期プロジェクトツリー (サービング専用パッケージ):

IrisClassifier/
  - IrisClassifier.sav
  - main.py
  - requirements.txt
IrisClassifier/
  - IrisClassifier.sav
  - main.py
  - requirements.txt

ルートフォルダーに追加する train.py の例:

import pandas as pd 
import joblib
class Main(object): 
   def __init__(self):
       self.model_path = './IrisClassifier.sav' 
       self.model = joblib.load(self.model_path)
      
   def train(self, training_directory):
       (X,y) = self.load_data(os.path.join(training_directory, 'train.csv'))
       self.model.fit(X,y)
   def evaluate(self, evaluation_directory):
       (X,y) = self.load_data(os.path.join(evaluation_directory, 'evaluate.csv'))
       return self.model.score(X,y)
   def save(self):
       joblib.dump(self.model, self.model_path)
   def load_data(self, path):
       # The last column in csv file is the target column for prediction.
       df = pd.read_csv(path)
       X = df.iloc[:, :-1].get_values()
       y = df.iloc[:, 'y'].get_values()
       return X,y
import pandas as pd 
import joblib
class Main(object): 
   def __init__(self):
       self.model_path = './IrisClassifier.sav' 
       self.model = joblib.load(self.model_path)
      
   def train(self, training_directory):
       (X,y) = self.load_data(os.path.join(training_directory, 'train.csv'))
       self.model.fit(X,y)
   def evaluate(self, evaluation_directory):
       (X,y) = self.load_data(os.path.join(evaluation_directory, 'evaluate.csv'))
       return self.model.score(X,y)
   def save(self):
       joblib.dump(self.model, self.model_path)
   def load_data(self, path):
       # The last column in csv file is the target column for prediction.
       df = pd.read_csv(path)
       X = df.iloc[:, :-1].get_values()
       y = df.iloc[:, 'y'].get_values()
       return X,y

必要に応じて requirements.txt を編集します。

pandas==1.0.1
scikit-learn==0.19.0
pandas==1.0.1
scikit-learn==0.19.0

最終的なフォルダー (パッケージ) 構造は以下のとおりです。
```
IrisClassifier/
  - IrisClassifier.sav
  - main.py
  - requirements.txt
  - train.py
IrisClassifier/
  - IrisClassifier.sav
  - main.py
  - requirements.txt
  - train.py
```
注:
これで、このモデルはまずサービングできるようになりました。この後、Robot または人間参加型プロセスを介して新しいデータポイントがシステムに追加されると、train.py を活用してトレーニングパイプラインと評価パイプラインを作成できます。

Zip ファイルをアップロードする

重要:

AI Center で ML パッケージを作成する際、パッケージ名に class、 break、 from、 finally、 global、 Noneなどの Python の予約語を含めることはできません。必ず別の名前を設定してください。パッケージ名は class <pkg-name> および import <pck-name>で使用されるため、リストされた例は完全ではありません。

作成済みのパッケージをアップロードするには、以下の手順に従います。

[ML パッケージ] ページで、[zip ファイルをアップロード] ボタンを選択します。[ 新しいパッケージを作成 ] ページが表示されます。
[新しいパッケージを作成] ページで、パッケージの名前を入力します。
[ パッケージをアップロード ] を選択して目的の .zip ファイルを選択するか、パッケージ .zip ファイルを [パッケージをアップロード ] フィールドにドラッグアンドドロップします。
任意: モデルのわかりやすい説明を入力します。

この説明は、このモデルに基づいて新しいスキルをデプロイするときに表示されます。また、[ML パッケージ] ページにも表示されます。
ドロップダウンから入力の種類を選択します。使用可能なオプションは以下のとおりです。
- json
- file
- files
任意: モデルで予期される入力のわかりやすい説明を入力します。
任意: モデルが返す出力のわかりやすい説明を入力します。

RPA 開発者は UiPath Studio で ML スキルアクティビティを使用して、これらの説明を表示できます。データサイエンティストと開発者とのコミュニケーションを促進するために、入力および出力の形式の例を示すことをお勧めします。
ドロップダウンから、モデルの開発言語を選択します。使用可能なオプションは以下のとおりです。
- Python 3.7
- Python 3.8
- Python 3.8 OpenCV
- Python 3.9
マシンラーニングモデルが GPU を必要とするかどうかを選択します。既定ではオフになっています。この情報は、このパッケージからスキルを作成する際の提案として表示されます。
モデルに対してトレーニングを有効化するかどうかを選択します。有効化した場合、以下のようになります。
- すべてのパイプラインでパッケージを使用できます。
- 検証手順で、パッケージに train.py ファイルが実装されているかどうかが確認されます。実装されていない場合、検証は失敗します。
[作成] を選択してパッケージをアップロードするか、[キャンセル] を選択してプロセスを中止します。[ 新しいパッケージを作成 ] ウィンドウが閉じ、パッケージがアップロードされ 、詳細とともに [ML パッケージ] > [ML パッケージ名] ページに表示されます。アップロードが反映されるまでに数分かかる場合があります。

注:

パッケージの検証やバージョン管理について詳しくは、「 ML パッケージを管理する」をご覧ください。

このページは役に立ちましたか?

前へML パッケージのソース

次へすぐに使えるパッケージを使用する

ML パッケージを構築する​

ML パッケージを構造化する​

サービング コンポーネント​

トレーニングと評価コンポーネント​

データ型を処理する​

String データ​

File データ​

Files データ​

任意のデータを保持する​

TensorFlow を使用する​

GPU の使用状況に関する情報​

例​

トレーニングがないシンプルな Ready-to-Serve ML モデル​

トレーニングが有効でシンプルな Ready-to-Serve モデル​

Zip ファイルをアップロードする​