複数のテキストファイル間の差分ワード数抽出について
Thread poster: Yuhiko IZUMI

Yuhiko IZUMI  Identity Verified
Japan
Local time: 23:22
English to Japanese
+ ...
Jul 25, 2011

初めて投稿させていただきます。
現在マニュアル翻訳を行っていますが、以下の状況で差分のワード数を抽出するのに手こずっています。
なお、Tradosがないため、フリーソフトでなんとかしようと試みています。

1. 元バージョン

↓(追加変更あり)

2. ドラフト1

↓(追加変更あり)

3. ドラフト2

↓(追加変更あり)

4. ドラフト3

で、ドラフトごとに
1. どれだけの分量が追加されたか
2. ドラフト1で追加された内容が、どのくらい残っているか
を知りたいのですが、以下の点から、ワード数での抽出ができていません。

1.ほとんどのDiffでは2つのファイルをコンペアすることしかできない。
このため、現在はWinmergeかRekisaで差分を抽出しています。
(他に、3つのファイルでコンペアを取れるツールが見当たらないようです)

2.ワード数を抽出できるDiffアプリがほとんどない。
(行ごとの相違は出るのですが、ワード数を抽出できるアプリを見つけられていません)

どなたか、上記の状況でうまくワード数を出す方法をご存知の方がいらっしゃいましたら、知恵をお借りできれば幸いです。よろしくお願い申し上げます。


Direct link Reply with quote
 

Michael Grant
Japan
Local time: 23:22
Japanese to English
Jul 25, 2011

Izumiさん、
はじめまして、マイケルと申します。

複数ドラフト間のワード数の問題はMSワードで解決できるでしょうか?
(もちろん、MSワードを持ってないなら以下の方法はできませんけど。。。)

もしも、TXTファイルごとに、MSワードにコピー・ペーストしたら、文字カウント
機能を見たら、それぞれのワード数を比べられる事ができるでしょうか?

文字カウントの機能は以下の単位を区別する事ができます:

単語
文字(スペースを含まない)
文字(スペースを含める)
全角文字+半角カタカナ
半角英数の単語

ページ
段落

上記のいずれの単位は使えそうですか?
(役に立たない答えだろうが、一応、申し上げてみようっと思って。。。)

マイケル


Direct link Reply with quote
 

Yuhiko IZUMI  Identity Verified
Japan
Local time: 23:22
English to Japanese
+ ...
TOPIC STARTER
ありがとうございます Jul 25, 2011

マイケルさん、ありがとうございます。
MS Wordでワードカウントができるのですが、差分のワードカウントはできなかったような気がします。でも、いただいた内容をもとにして、改めて挑戦してみます!


Direct link Reply with quote
 

Katalin Horváth McClure  Identity Verified
United States
Local time: 09:22
Member (2002)
English to Hungarian
+ ...
It is not a simple wordcount difference Jul 25, 2011

Michael,
Your method does not work, because what Izumi-san needs is not only the difference in the simple number of words, but the wordcount for all changes.
Let me give you an example.
"I ate an apple for lunch." - 6 words
"I had a pear for dinner." - 6 words
No change in the wordcount, right?
But there are actually 3 words that were changed.

Or another example:
"I ate an apple for lunch." - 6 words
"I had a nice pear for dinner." - 7 words
Wordcount difference: 1 word
Real difference: 4 words.

A CAT-tool would be the most appropriate to count the changes.
It would not count individual words, but would find sentences that are different, estimate the % of similarity, and categorize the sentence (using its total wordcount) based on that.

Although, I am not sure the purpose of counting the differences through several changes in the draft, but if Izumi-san has to process these files for translation, and the client wants to pay full rate only for the changes, I would suggest using a CAT-tool anyway to make sure the end product is consistent. If the changes are minimal, then a per-hour fee would be a good approach.

Katalin


Direct link Reply with quote
 

RieM  Identity Verified
United States
Local time: 09:22
English to Japanese
+ ...
Diff Doc のレポート機能を使用してみるのはどうでしょう? Jul 26, 2011

追加ワード数だけだったら...

お望みのワード数が得られるかどうか分かりませんが、Diff Doc のレポート機能で、追加分だけ(削除分なし)の比較レポートを作成して、他のツールでワード数を数えることができるかもしれません。

http://www.softinterface.com/MD/Document-Comparison-Software.htm

お試しダウンロードができます。日本語版もあるようです。私も以前試してみましたが、こちらの目的と合わなかったので、購入していません。なので、実際にどのような形式でレポートデータが出力されるのか分かりません。

3-way comparison は、Beyond compare の pro バージョンで可能ですが、マニュアル等のテキストに使えるかどうかは疑問です。

翻訳ツールは何かお使いですか?翻訳メモリがあれば、そこから差分データを出せるユーティリティがあったように思います。


(追)一太郎には、2つのファイルを比較して、その相違点だけ(削除分、追加分、変更分まるごと)を保存する機能があります。

[Edited at 2011-07-26 00:16 GMT]


Direct link Reply with quote
 

Michael Grant
Japan
Local time: 23:22
Japanese to English
確かに。。。 Jul 26, 2011

Yuhiko IZUMI wrote:
MS Wordでワードカウントができるのですが、差分のワードカウントはできなかったような気がします。


Katalin-さんのコメントを読んで、それに気づいた!申し訳ありません: 確かにMSワードはDiffのような差分を抽出できませんですね!どうもすみませんでした!:oops:

マイケル


Direct link Reply with quote
 

Yuhiko IZUMI  Identity Verified
Japan
Local time: 23:22
English to Japanese
+ ...
TOPIC STARTER
Many thanks Jul 26, 2011

Katalinさん、RieMさん、コメントいただきありがとうございます。
CAT Toolは所有しておらず、OmegaTに頼っているのが現状です。差分抽出ユーティリティはないようですので、試行錯誤しています。

DiffDocを試してみたところ、限りなく思い通りの差分レポートが作成されました。
これでなんとか光が見えてきました!


Direct link Reply with quote
 

Peishun CHIANG  Identity Verified
Japan
Member (2004)
English to Japanese
+ ...
カウントツール Jul 26, 2011

文字数カウントだけですが、
Jcount.exe と言うのがあります。
http://www.vector.co.jp/soft/dl/win95/util/se413034.html

Peishun


Direct link Reply with quote
 


To report site rules violations or get help, contact a site moderator:

Moderator(s) of this forum
Takeshi MIYAHARA[Call to this topic]

You can also contact site staff by submitting a support request »

複数のテキストファイル間の差分ワード数抽出について

Advanced search






CafeTran Espresso
You've never met a CAT tool this clever!

Translate faster & easier, using a sophisticated CAT tool built by a translator / developer. Accept jobs from clients who use SDL Trados, MemoQ, Wordfast & major CAT tools. Download and start using CafeTran Espresso -- for free

More info »
BaccS – Business Accounting Software
Modern desktop project management for freelance translators

BaccS makes it easy for translators to manage their projects, schedule tasks, create invoices, and view highly customizable reports. User-friendly, ProZ.com integration, community-driven development – a few reasons BaccS is trusted by translators!

More info »



Forums
  • All of ProZ.com
  • Term search
  • Jobs
  • Forums
  • Multiple search