★本講座は2/8講座【OSS(オープンソース)を使った自分でできる特許情報解析】の 基礎編の位置づけとなります。実践や応用を目標とする方は同時受講がおすすめです。
Ⅰ.はじめに ・講師自己紹介 ・アジア特許情報研究会紹介
Ⅱ.特許調査とテキストマイニングの基礎 ・調査対象と調査範囲の特定・明確化 ・マッチングと適合 ・特許調査における再現率(網羅性)と適合率(効率) ・先行技術調査と侵害防止調査の検索モデルの違い ・「完全一致」⇔「最良一致」検索モデルの比較 ・検索・分類とテキストマイニングの違い ・テキストマイニングの基本的な仕組み
Ⅲ.テキストマイニングの概要と特許調査への応用 ・テキストマイニングとは ・形態素解析と分かち書き ・特徴抽出(BoW,TF-IDF,BM25,単語N-gram) ・抽出語の頻度分析 ・共起語のネットワーク分析 ・ネットワーク分析の応用(発明者、引用-被引用) ・「文書×抽出語」行列作成と解析・可視化 ・文書の類似度行列作成と解析/可視化
Ⅳ.各種ツールのテキストマイニング関連機能活用事例 ・KH Coder(フリー版)の活用事例 ・Text Mining Studio(商用)の活用事例 ・パテントマップEXZのキーワード抽出、類似特許抽出 ・Patentfieldの類似語、AIセマンティック検索 ・THE調査力AI(Deskbee5)の専門用語抽出、サーチ/ノイズ確率 ・RとPythonによるテキストマイニング ・生成系AI(ChatGPT)等のテキストマイニングへの応用(基礎)
Ⅴ.オープンソースを用いた機械学習の特許調査への応用 ・機械学習の概要と特許調査への応用 ・特許調査分野における人工知能(AI)技術の活用動向 ・機械学習概要(分類、回帰、クラスタリング、次元圧縮) ・特許分野における自然言語処理導入のメリット ・特許調査用学習済モデルの作成とその評価方法 ・先行技術調査の流れ(進め方) ・分散表現(単語埋め込み)とは ・分布仮説に基づいた文脈中の単語の重み学習(word2vec) ・doc2vecによる公報(文書)単位の類似度計算 ・doc2vecによる発明の要素(文)単位の類似度計算
Ⅵ.機械学習のクラス分類の応用事例 ・ディープラーニングの基礎検討 ・文書のベクトル化検討 ・one hotベクトル(BoW、TF-IDF等) ・分散表現ベクトル(word2vec、doc2vec、fastText等) ・機械学習による文書分類 ・SDI調査、動向調査への応用
Ⅶ.教師無し機械学習(クラスタリング、次元圧縮)の応用 ・単語/文書のクラスタリングによる動向調査への応用 ・文書ベクトルの次元圧縮による特許公報の俯瞰可視化 ・文書分類との組み合わせによるパテントマップの自動作成
【付録】 自分でできる特許情報解析ツール紹介 1.キーワード抽出関係 ●word2vec,doc2vecによる単語・文書の類似度計算と類似単語・文書抽出 ●termextractによる専門用語(キーワード)自動抽出 ●Cytoscapeによる文脈語のネットワーク分析 2.pythonで始める機械学習 ●python環境構築の概要 ●doc2vecによる文書・単語の類似度計算と類似文書・単語抽出の解説
|